爬取糗事百科文字段子，（2016年10月22日可用）

来源：互联网发布：怎样看出淘宝是包邮的编辑：程序博客网时间：2024/05/22 10:53

简单的利用bs4提取了一些东西，中途尝试了网上的多个版本，自己简单的模仿了一下。

主要提取部分：

<a href="/article/117808662" target="_blank" class='contentHerf' ><div class="content"><span>偶遇小朋友玩家家酒！<br/>一小姑娘说：谁要扮演老公的？只见小男孩们纷纷举起小手：我、我、我……<br/>好，这是你的搓衣板和尿壶，你就跪在这上面手上拖着尿壶，我在旁边化妆</span></div></a>

找到相应class提取span即可

from urllib.request import urlopen ,Requestfrom bs4 import BeautifulSoupimport reimport timex=1def gogogo(page):    global x    url = "http://www.qiushibaike.com/text/page/"+str(page)+"/?s=4922848"    H = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}    req = Request(url=url,headers=H)    res = urlopen(req)    H = BeautifulSoup(res,"html.parser")    t = H.findAll('a',{"class":re.compile("content")})    for i in t:        lists = i.find('span')        f.write(str(x)+":")        x=x+1        f.write(lists.get_text())        f.write("\n\n")    time.sleep(1)if __name__ =="__main__":    f = open("d.txt",'a',encoding='utf-8')    for i in range(1,4):        gogogo(i)    print('Good Job!')    f.close()

程序代码比较简单，需要模拟一下浏览器访问即可，正在学习计算机网络，第10行的内容可以根据自己的浏览器进行替换，学一下开发者工具还是很重要的。

0 0