java爬取网站正文
来源:互联网 发布:淘宝二姐家是正品吗 编辑:程序博客网 时间:2024/06/07 02:50
最近的一些进度,刚刚接触csdn,这次只是试水,以后会陆续发一点微博,反正也没人关注,只是为了自省而已。之后能看看自己哪几天在偷懒。233333import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.HttpURLConnection;import java.net.URL;import java.util.regex.Matcher;import java.util.regex.Pattern;public class CatchHtml { public static void main(String[] args){ URL url; int responsecode; HttpURLConnection urlConnection; BufferedReader reader; String line; StringBuilder html = new StringBuilder(); String st; String st2; try{ //生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn url=new URL("http://baa.bitauto.com/changancs75/thread-9819102.html"); //打开URL urlConnection = (HttpURLConnection)url.openConnection(); //获取服务器响应代码 responsecode=urlConnection.getResponseCode(); if(responsecode==200){ //得到输入流,即获得了网页的内容 reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"utf-8")); while((line=reader.readLine())!=null){ html.append(line); } } else{ System.out.println("获取不到网页的源码,服务器响应代码为:"+responsecode); } } catch(Exception e){ System.out.println("获取不到网页的源码,出现异常:"+e); }// System.out.println(html); //爬取title// Pattern p = Pattern.compile(""); // Matcher m = p.matcher(html); // while (m.find()) {//找到匹配的字符串// System.out.println("title: " + m.group(1));// }//// 爬取content Pattern s = Pattern.compile("
(.*)
0 0
- java爬取网站正文
- python 爬取网页正文
- java Jsoup实现新闻网页的爬取,标题,正文,图片,新闻时间,网页链接的解析示例
- 网页内容爬取:如何提取正文内容
- python+BeautifulSoup爬取不老歌的网页正文
- Java爬虫爬取网站图片
- java爬虫爬取主流房屋网站
- 爬取网站图片
- 爬取网站段子
- 网站爬取
- 网站页面正文优化技巧
- Java爬虫实践--爬取CSDN网站图片为例
- Java爬虫爬取网站电影下载链接
- Java爬虫实践--爬取CSDN网站图片为例
- 简单的java爬取网站内容和url实例
- 一个单线程爬取英文维基百科正文与链接关系的Python爬虫
- Jsoup学习 JAVA爬虫爬取美女网站 JAVA爬虫爬取美图网站 爬虫
- 正则表达式取正文中的汉字
- GYM 101147 E.Jumping(SPFA)
- M题
- 初识数据库
- matlab size函数
- 自定义控件之绘图篇(三) —— 区域(Range)
- java爬取网站正文
- caffe学习笔记(一):MNIST例程
- 1050 螺旋矩阵 申请二维数组
- 《华为机试在线训练》之提取不重复的整数
- C语言实现TCP服务器----模型(三)
- 解决matplotlib中文乱码问题(Windows)
- PAT L2-011. 玩转二叉树
- android教你打造独一无二的刷新加载框架
- Dom4j解析XML