python爬虫0.3

来源：互联网发布：淘宝 618 大促销售额编辑：程序博客网时间：2024/06/06 05:07

爬取整个网页whole2html_simple.py
这是一个神秘博士贴子只有一页http://tieba.baidu.com/p/5260095920试一下程序

：显示404，因为输入时没在末尾输入 ?pn= 此参数有关（对于只一页的，pn=X都是当前页）添加后成功。

这是一个神秘博士贴子有几十页http://tieba.baidu.com/p/4052795843?pn=试一下

：该程序可以爬取成功整个网页，除了【贴吧啊发表的头像以及贴吧评论】某些看不到。使用其他网页皆可。

爬取贴吧中的评论文本tieba_text.py

在from bs4 import beautifulSoup此句报错显示importerrorbs4 解决网址如下https://stackoverflow.com/questions/11783875/importerror-no-module-named-bs4-beautifulsoup

For python2.x:sudopip install BeautifulSoup4

For python3:sudoapt-get install python3-bs4

然后成功运行。

阅读全文

0 0