[NLTK自然语言处理]获取网页文档
来源:互联网 发布:网络最赚钱的项目 编辑:程序博客网 时间:2024/06/04 23:34
1. 获取网页
1.1 一般网页:
使用urllib包
>>> from urllib import urlopen
指定url
>>> url = "http://www.gutenberg.org/files/2554/2554.txt"
读入原始文档
>>> raw = urlopen(url).read()
Check:raw的类型是str
>>> type(raw)
<type 'str'>
1.2 特殊网页:
如使用1.1的方法读入wikipedia的网页会返回Access Deny,需要使用urllib2,手动添加header,让wiki以为是浏览器访问
使用urllib2包
>>> import urllib2
建立opener
>>> opener = urllib2.build_opener()
添加header
>>> opener.addheaders = [('User-agent', 'Mozilla/5.0')]
打开url
>>> infile = opener.open('http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes')
>>> type(infile)
<type 'instance'>
读入原始文档
>>> raw = infile.read()
2. 删除html标签
如果是txt或其他文本文件,跳过此步
>>> raw = nltk.clean_html(raw)
3. 删除多余信息。
由于没有内置功能,只能手动找到所需要信息的头和尾,截取中间部分
>>> raw.find("PART I")
5303
>>> raw.rfind("End of Project Gutenberg's Crime")
1157681
>>> raw = raw[5303:1157681]
4 从raw生成tokens
>>> tokens = nltk.word_tokenize(raw)
>>> type(tokens)
<type 'list'>
5 从tokens生成text
>>> text = nltk.Text(tokens)
>>> type(text)
<class 'nltk.text.Text'>
6. 从text生成vocab
>>> words = [w.lower() for w in text]
>>> vocab = sorted(set(words))
总结:
HTML----> ASCII (raw) ----> Text (tokens, text) ----> Vocab (words, vocab)
- [NLTK自然语言处理]获取网页文档
- NLTK自然语言处理问题
- NLTK自然语言处理2
- NLTK自然语言处理
- Python nltk自然语言处理基本资料
- 文本分析--NLTK自然语言处理
- 自然语言处理-nltk学习(一)
- 自然语言处理-nltk学习(二)
- Python自然语言处理-自然语言工具包(NLTK)
- Python+NLTK自然语言处理学习(一…
- Python+NLTK自然语言处理学习(二…
- Python+NLTK自然语言处理学习(三…
- python自然语言处理nltk库常用接口
- python nltk自然语言处理学习笔记1
- python nltk自然语言处理学习笔记2
- Python自然语言处理NLTK(1.1-1.3)
- nltk安装第三方自然语言处理工具
- python+NLTK自然语言处理 环境搭建
- 事件驱动架构及应用
- 在MVC3中实现 checkbox 的列表
- 向着第二层 第一阶段第十七天
- JavaScript执行顺序
- Ubuntu打开终端的方法三种
- [NLTK自然语言处理]获取网页文档
- C++将字符串转换成数字
- oracle 每周小结导语
- 函数调用的开销
- HighID
- vc9下stlport-5.2.1的安装
- 数据中心表:t_sys_datacenter
- 将来是否要从事计算机
- 在Ubuntu 10.10下安装JDK配置Eclipse及Tomcat