python爬虫0.3

来源:互联网 发布:淘宝 618 大促 销售额 编辑:程序博客网 时间:2024/06/06 05:07

爬取整个网页whole2html_simple.py
这是一个神秘博士贴子只有一页http://tieba.baidu.com/p/5260095920试一下程序
:显示404,因为输入时没在末尾输入  ?pn=  此参数有关(对于只一页的,pn=X都是当前页)添加后成功。
这是一个神秘博士贴子有几十页http://tieba.baidu.com/p/4052795843?pn=试一下
:该程序可以爬取成功整个网页,除了【贴吧啊发表的头像以及贴吧评论】某些看不到。使用其他网页皆可
 
爬取贴吧中的评论文本tieba_text.py
在from bs4 import beautifulSoup此句报错显示importerrorbs4      解决网址如下https://stackoverflow.com/questions/11783875/importerror-no-module-named-bs4-beautifulsoup
For python2.x:sudopip install BeautifulSoup4
For python3:sudoapt-get install python3-bs4
然后成功运行。

原创粉丝点击