用于读取爬虫后的文件
来源:互联网 发布:知乎 加拿大ee 编辑:程序博客网 时间:2024/06/15 17:21
<pre name="code" class="python"># coding: utf-8'''Created on 2014-7-24@author: Administrator'''import urllib2from urllib2 import Requestimport reimport sysdef p(f): print '%s.%s(): %s' % (f.__module__, f.__name__, f())# 返回当前系统所使用的默认字符编码p(sys.getdefaultencoding)req=Request('http://www.qiushibaike.com/article/62599902?list=hot&s=4689411')req.add_header('User-Agent', 'aa')response = urllib2.urlopen(req)html = response.read()#print htmlmyItems = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>',html,re.S)print myItemsfor i in myItems: #myItems是list集合 for j in range(len(i)): #i是一个集合 len(i)为2 j的值为0和1 print i[j]
当一起打印的时候 中文就会有乱码, 分开迭代的读取的话 就会正常打印中文,很奇怪
0 0
- 用于读取爬虫后的文件
- 用于登陆后的信息收集爬虫
- 用于“实时”读取文件数据的小工具 ----- dread
- Properties的工具类,用于读取外部文件Properties
- Python 输出用于 Paraview 后处理的 vtk 文件
- 读取解密后的文件内容
- 学习File API用于前端读取文件
- php读取一个文件后就清除文件的内容
- cocos2d CCFileUtils读取文件后 解析自己的.ini文件
- 爬虫基本操作——从文件中批量读取需求,查询后,批量写入Excel表中
- VS2010-MFC下在状态栏中添加进度条用于显示当前文件的读取进度
- 用于Unity上的CSV文件读取工具,一句代码缓存、提取
- python网络爬虫文档读取-CSV文件
- mahout读取nutch抓取数据后的文件
- php读取大文件,后多少行的数据
- Unity3d发布后,读取资源包外的文件
- PHP读取文件内容后清空文件的代码
- c# 读取txt文件中特定内容后的文字
- ZOJ Problem Set - 1512 (Water Treatment Plants)
- leetcode做题总结,题目Copy List with Random Pointer 2013/10/03
- 黑马程序员 java学习笔记——面向对象2:继承
- int *p,cons int *p,int const *p,int * const p,const int * const p,int const * const p的区别
- javascript类工厂的实现!
- 用于读取爬虫后的文件
- 四层和七层负载均衡的区别
- 算法-
- 单线程实现检索当当网泄露的1GB用户数据
- sprintf,求字符串长度
- 队列
- Java向上转型和向下转型(附详细例子)
- 清:清空“结果”的内容 20140731 ①文本处理
- 结构体对齐,结构体深拷贝和浅拷贝