解析一个html网页,读取指定的正文(去新闻广告)
来源:互联网 发布:python twisted 下载 编辑:程序博客网 时间:2024/05/16 11:05
//本例子是以以截取新浪新闻的正文为例子,其他的html类似
@Testpublic boolean getContent(String link) throws Exception {// 通过链接得到对应的输入流URL url = new URL(link);URLConnection urlConnection = url.openConnection();InputStream inputStream = urlConnection.getInputStream();// 把流存到一个byte[]数组contentByte中byte[] contentByte = new byte[1024 * 10];byte[] buffer = new byte[1024];int i = -1;while ((i = inputStream.read(buffer)) != -1) {contentByte = byteMerger(contentByte, buffer);}// 把数组转为字符串,再对字符串进行相应的增删改查.其中把byte[]数组转为String的时候要注意编码,要与link源的编码一致String str = new String(contentByte, "gb2312");// 下面是对字符串的截取int start = str.indexOf("<!-- 正文内容 begin -->");int end = str.indexOf("<!-- publish_helper_end -->");if (start != -1) {// 如果查找成功,即源文件存在要截取的目标// 截取需要的字符串String contentStr = str.substring(start, end);// 添加必要的html代码,主要转换的格式也要一一对应.添加的html的编码也要一致byte[] write1 = "<html xmlns=http://www.w3.org/1999/xhtml><head><meta http-equiv=Content-Type content=\"text/html;charset=GB2312\"><body>".getBytes("GB2312");byte[] write = contentStr.getBytes("GB2312");byte[] write2 = "</body></html>".getBytes();OutputStream outputStream = new FileOutputStream(Environment.getExternalStorageDirectory().toString() + "/tmp.html");// 用byteMerger方法来连接byte[]数组outputStream.write(byteMerger(byteMerger(write1, write), write2));outputStream.close();return true;} else {// 如果失败,就把源文件保存下来.查完出错原因FileWriter fw = new FileWriter(Environment.getExternalStorageDirectory().toString() + "/aa.txt");fw.flush();fw.write(str);fw.close();return false;}}// java 合并两个byte数组public static byte[] byteMerger(byte[] byte_1, byte[] byte_2) {byte[] byte_3 = new byte[byte_1.length + byte_2.length];System.arraycopy(byte_1, 0, byte_3, 0, byte_1.length);System.arraycopy(byte_2, 0, byte_3, byte_1.length, byte_2.length);return byte_3;}
4 0
- 解析一个html网页,读取指定的正文(去新闻广告)
- java Jsoup实现新闻网页的爬取,标题,正文,图片,新闻时间,网页链接的解析示例
- Jsoup实现新闻网页的爬取,标题,正文,图片,新闻时间,网页链接的解析示例
- 一种提取HTML网页正文的方法
- webView加载指定的网页 加载解析的HTML
- 网页正文的抽取
- 用org.htmlparser包解析html正文内容的实现
- 基于广告链接和行块分布的网页正文抽取
- XZ_iOS之网页去广告
- 网页去噪,获取网页正文相关开源项目
- 网页去噪,获取网页正文相关开源项目
- 分享一个在线解析提取网页视频的网站 不用另外下载工具 绝非广告
- 网页漂浮广告的一个奇怪错误
- 从电脑版页面获取新闻正文html代码
- Python爬虫项目,获取所有网站上的新闻,并保存到数据库中,解析html网页等(未完待续)
- java读取URL指定的网页内容
- 抓取一个网页并解析HTML
- 获取指定URL网页的HTML代码
- 安全拷贝 Protecte Copy
- 黑马程序员---java7k面试---11银行
- PV、UV、IP的区别
- C#打开默认浏览器网址
- Java获取当前的系统时间
- 解析一个html网页,读取指定的正文(去新闻广告)
- C数据结构 单链表操作
- 图论基本知识
- 问1:蜂鸣器中三极管的接法及作用
- 2014年广东松田学院专插本《计算机操作系统》第一章考试纲领答案
- Hadoop实战实例
- 多天线技术的天线有相关和无相关时应该采取的策略
- 黑马程序员---基础加强---10代理
- Log图文详解