爬取猫眼top100电影并存储在本地csv文件中
来源:互联网 发布:听四大名著的软件 编辑:程序博客网 时间:2024/06/04 19:00
import requestsfrom bs4 import BeautifulSoupimport timeimport csvdef getcontent(url): #网页请求头 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36 OPR/49.0.2725.47'} #发送get请求 r = requests.get(url,headers=headers) #获取文本 content = r.text soup = BeautifulSoup(content, 'lxml') div_name = soup.find_all(class_='name')#找出所有电影的名字 div_star = soup.find_all(class_='star')#找出所有电影的主演 div_time = soup.find_all(class_='releasetime')#找出所有电影的上映时间 div_score = soup.find_all(class_='score')#找出所有电影的评分 #获取电影部数 long = len(div_name) #申明一个全局List,用于保存多部电影参数,每部电影参数也是一个list global DATA #遍历每一页中的电影 for i in range(0, long): #定义一个临时的list保存一部电影的参数 data =[] data.append(div_name[i].get_text())#获取第i部电影的名字 data.append(div_star[i].get_text())#获取第i部电影的主演 data.append(div_time[i].get_text())#获取第i部电影的上映时间 data.append(div_score[i].get_text())#获取第i部电影的评分 #print(data) #time.sleep(1) #将第i部电影的参数加入到全局list中 DATA.append(data) #将第i部电影的参数写入csv文件中 #加上 newline='' 可以去掉csv中的空白行 #加上 encoding='gb18030' 会让csv文件中能够正常显示中文,否则乱码 with open('E:/Python/Spider/MaoyanTOP100.csv', 'w', newline='',encoding='gb18030') as f: writer = csv.writer(f) writer.writerows(DATA)#定义一个全局的List变量DATA = []#遍历所有网址,不同页面网址之间只有offset后面的数值有差异for i in range(0, 100, 10):#从0开始,每次增加10,到100结束,不包括100 url = "http://maoyan.com/board/4?offset=" + str(i) #调用函数 getcontent(url)
阅读全文
0 0
- 爬取猫眼top100电影并存储在本地csv文件中
- 爬取猫眼top100电影并存储在mysql中
- 猫眼电影TOP100爬取
- 猫眼电影TOP100爬取
- 爬取猫眼电影榜单Top100
- 【爬虫】爬取猫眼电影top100
- Python爬取猫眼电影TOP100
- Python爬虫(三):爬取猫眼电影网经典电影TOP100信息并存入本地Markdown文件(上)
- Python爬虫(三):爬取猫眼电影网经典电影TOP100信息并存入本地Markdown文件(下)
- 初步运用多进程,利用正则表达式,爬取猫眼电影top100排行榜,储存到本地
- 利用requests和正则表达式re爬取猫眼电影top100,并下载图片
- Python爬虫-爬取猫眼电影Top100榜单
- Requests+正则表达式爬取猫眼电影top100
- requests+正则表达式爬猫眼电影TOP100
- 爬取猫眼电影网经典电影TOP100信息Markdown效果展示
- 猫眼电影 票房爬取
- python抓取猫眼电影top100
- python 爬虫抓取猫眼电影 top100 源码
- CSS-字体和文本样式
- android win7串口调试
- 具有永久改变x值的副作用
- 1.1会计要素及其确认与计量
- [TensorFlow] python3-tk 库的安装作为tensorflow的可视化库
- 爬取猫眼top100电影并存储在本地csv文件中
- MYSQL-- 每半月一个分区,自动维护 MYSQL-- 每半月一个分区,自动维护
- 如何在Chrome播放 RTSP 实时视频,并且不能有插件
- Codeforces Round #451 (Div. 2) B. Proper Nutrition
- SolidWorks 2018 MBD贯穿整个设计流程
- 输入无效文本输入的方式
- 第十次学习报告
- MySQL字符集
- matlab脚本文件的扩展名由M改为m