程序博客网 > 卡洛斯实况巅峰数据

豆瓣最受欢迎的影评爬虫（第一个爬虫撒花！）

来源：互联网发布：卡洛斯实况巅峰数据编辑：程序博客网时间：2024/04/30 11:21

-- coding: utf-8 --

from bs4 import BeautifulSoup
import requests
import urllib
import codecs
import re
import json

urlnumber = 0
while urlnumber<60:
print type(urlnumber), urlnumber
url = ‘https://movie.douban.com/review/best/?start=%d’ % (urlnumber,)
html=urllib.urlopen(url)
soup=BeautifulSoup(html)
links = soup.find_all(“a”,class_=”j a_unfolder”)
i=1+urlnumber
for link in links:
new_url = link[‘href’]
new_html=urllib.urlopen(new_url)
newsoup=BeautifulSoup(new_html)
title=newsoup.find(“span”,property=”v:summary”)
a=title.get_text().encode(‘utf-8’) #转换成str
# print a
content=newsoup.find(“div”,property=”v:description”)
b=content.get_text().encode(‘utf-8’)
dict = {‘title’:a,’content’:b}
# print b
j = json.dumps(dict,ensure_ascii=False) #后面的参数是重点，json从此不再是编码，而是中文了
output=codecs.open(‘yingping/%d.json’%i,’w’)
output.writelines(j)
output.close()
i += 1
urlnumber += 10

0 0

卡洛斯实况巅峰数据

卡洛斯实况巅峰数据

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子假离婚买房子怎么办? 微信怎么办居住证厦门厦门没有暂住证怎么办居住证机票上没有登机口怎么办德国黑工怎么办居留夏天吹空调感冒怎么办拖鞋穿着脚臭怎么办住墨尔本高层着火怎么办中转航班托运行李怎么办孩子淋雨感冒了怎么办出国留学国内手机号怎么办出国留学移动号怎么办要出国了手机卡怎么办去澳洲打工签证怎么办在泰国退税失败怎么办澳洲trs退税失败怎么办俄航行李丢失怎么办维也纳至尊钻石卡怎么办晚上开灯有虫子怎么办 go card 怎么办学生卡天气干燥鼻子干怎么办在西北天气干燥怎么办气候干燥鼻孔干怎么办研究生英语挂科怎么办商业街的退租潮怎么办牛排杯生意不好怎么办烤盘没有油纸怎么办王品牛排怎么办会员卡煎牛排溅油怎么办煎牛排炸油怎么办煎牛排没黄油怎么办做牛排没有黄油怎么办手表漆面磨损怎么办金色手表掉漆怎么办手表的秒针脱落怎么办手表指针掉了怎么办电子表表把出来怎么办地下井水有沙怎么办夏天表带总是黑怎么办中国到希腊签证怎么办希腊自由行签证怎么办