requests实现简单文本爬虫

来源:互联网 发布:mysql 修改数据库时间 编辑:程序博客网 时间:2024/06/10 05:12
import requestsimport re page =1url = 'http://www.qiushibaike.com/hot/page/' + str(page)  user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'#请求的头信息,谷歌打开页面按F12打开谷歌监听工具,找到network项,F5刷新页面,点击第一个数据包,即可查看headers相关信息。headers = { 'User-Agent' : user_agent }response=requests.get(url,headers=headers)#创建一个实例content = response.text#访问该实例的text属性,返回html文本content =re.sub('<br/>','\n' ,content)#用'\n'替换<br/>#将HTML文本中的空格标记用断行符替换pattern = re.compile('content">.*?<span>(.*?)</span>.*?</div>',re.S)#正则式匹配HTML文本中的段子.outputs = re.findall(pattern,content)#正则式匹配for i in outputs:  print i +"\n\n"


1 0
原创粉丝点击