爬取糗事百科文字段子,(2016年10月22日可用)

来源:互联网 发布:怎样看出淘宝是包邮的 编辑:程序博客网 时间:2024/05/22 10:53

简单的利用bs4提取了一些东西,中途尝试了网上的多个版本,自己简单的模仿了一下。

主要提取部分:

<a href="/article/117808662" target="_blank" class='contentHerf' ><div class="content"><span>偶遇小朋友玩家家酒!<br/>一小姑娘说:谁要扮演老公的?只见小男孩们纷纷举起小手:我、我、我……<br/>好,这是你的搓衣板和尿壶,你就跪在这上面手上拖着尿壶,我在旁边化妆</span></div></a>

找到相应class提取span即可

from urllib.request import urlopen ,Requestfrom bs4 import BeautifulSoupimport reimport timex=1def gogogo(page):    global x    url = "http://www.qiushibaike.com/text/page/"+str(page)+"/?s=4922848"    H = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}    req = Request(url=url,headers=H)    res = urlopen(req)    H = BeautifulSoup(res,"html.parser")    t = H.findAll('a',{"class":re.compile("content")})    for i in t:        lists = i.find('span')        f.write(str(x)+":")        x=x+1        f.write(lists.get_text())        f.write("\n\n")    time.sleep(1)if __name__ =="__main__":    f = open("d.txt",'a',encoding='utf-8')    for i in range(1,4):        gogogo(i)    print('Good Job!')    f.close()
程序代码比较简单,需要模拟一下浏览器访问即可,正在学习计算机网络,第10行的内容可以根据自己的浏览器进行替换,学一下开发者工具还是很重要的。

0 0
原创粉丝点击