网页去噪,网页正文文本提取方案二(goose)

来源:互联网 发布:新加坡 人工智能 编辑:程序博客网 时间:2024/06/07 06:40

goose项目介绍:

The aim of the software is is to take any news article or article type web page and not only extract what is the main body of the article but also all meta data and most probable image candidate.

Goose will try to extract the following information:

Main text of an article
Main image of article
Any Youtube/Vimeo movies embedded in article
Meta Description
Meta tags

看了下goose的python版代码,其使用了中文分词(jieba),自然语意分析(nltk),网页处理模块(beautifulsoup),cssselect(css选择器)等其他一些模块

在有效正文判断上优于readability。


代码实例:

>>> from goose import Goose>>> from goose.text import StopWordsChinese>>> url  = 'http://www.bbc.co.uk/zhongwen/simp/chinese_news/2012/12/121210_hongkong_politics.shtml'>>> g = Goose({'stopwords_class': StopWordsChinese})>>> article = g.extract(url=url)>>> print article.cleaned_text[:150]香港行政长官梁振英在各方压力下就其大宅的违章建筑(僭建)问题到立法会接受质询,并向香港民众道歉。梁振英在星期二(12月10日)的答问大会开始之际在其演说中道歉,但强调他在违章建筑问题上没有隐瞒的意图和动机。一些亲北京阵营议员欢迎梁振英道歉,且认为应能获得香港民众接受,但这些议员也质问梁振英有

拿readability和一样的url(http://blog.sina.com.cn/s/blog_4949b3d50102e81h.html?tj=1)分析结果如下

一代百变歌后梅艳芳病逝至今 年,同时是她 岁冥寿,她的挚友刘培基为她的纪念活动拉开华丽庄重的序幕,早在今年 月展出梅艳芳多套经典舞台服饰,供歌迷凭吊。叫人唏嘘的是,在她 月 日生忌前夕,管理她遗产的基金要拍卖她的所有遗物,因为她生前的豪宅已出售套现,交去前需清理屋内所有物件,因此要开放已封闭 年、外人不得越雷池半步的香闺给买家参观拍卖品,她生前绝对不容曝光的睡床、厕所等任由一班陌生人细看、研究是否要竞投,逝者尊严何在?更令人慨叹的是她生前珍而重之的贝克汉姆亲笔签名足球、刘德华手抄心经墨宝、具纪念价值的歌衫、打生打死赢回来的奖座、挂满衣柜的名牌时装等在她身故 年后急剧折旧,每件底价 至 港元,少于内地一张演唱会门票的价钱,多悲凉。在舞台上光芒四射、享尽掌声欢呼声、万千宠爱、前呼后拥、丰衣足食,看似拥有全世界,现实中她充满无奈空虚和苦涩。追求爱情的她,一生寻觅至爱,望能找到可倚靠的肩膀,爱神却没眷顾她,要她孤身走最后一程。她离世 年后,林国斌终肯剖白他曾与梅艳芳拍拖 年,梅艳芳更决定为他退出歌坛,回归平淡生活,最后因小误会而分手。在她病重期间,要托付人生最后一件大事:遗产分配,竟没一个身边人她认为可以信任,她宁愿将用一生青春血汗挣回来的财产交信托基金管理。她为年老的母亲计划好一切,每月付她 万元生活费,直至她百年归老。没有送她一大笔金钱,是怕她被人骗财,又怕她不善理财,很快把钱花光。老人家不太领她情,用尽方法要夺得她其他的遗产,四出指有关人士及机构谋财害命,上演街头叫骂闹剧,完全不尊重女儿遗愿。10年间,她的月生活费由 万增加超过一倍至 万,最后还是破产,梅艳芳的忧虑是对的。梅艳芳的家人指拍卖梅艳芳遗物是对阿梅不敬。信托公司要拍卖的阿梅故居及遗物,就是为了要支付梅妈的生活费,对阿梅不敬、不尊重的到底是谁?

在此可以和http://blog.csdn.net/u011617072/article/details/12624855 对比下。


测试地址:
我搭建了一个python版的测试环境
用途:
1.将网页上杂乱的文字和图片去除,只保留经过工整排版的正文部分。可以用来手机和平板端浏览,干净整洁,无广告。
2.抓去互联网上有效内容,用于网上有效信息获取,比如刚建站需要到网上抓一些信息回来,配合爬虫使用。
3.其他



原创粉丝点击