Python实战_1_第一周_第二节练习项目:爬取商品信息
来源:互联网 发布:数据库商品价格大于0 编辑:程序博客网 时间:2024/04/29 03:07
使用BeautifulSoup写爬虫,需要完成以下三个步骤。
0 使用BeautifulSoup解析一个网页
1 找到所有你需要的标签
2 从标签中提取需要的数据
xpath 与 css selector 有点象现实生活的地址,感觉也有点像文字检索。
# coding:utf-8from bs4 import BeautifulSoupwith open("./index.html",'r') as web_file: soup = BeautifulSoup(web_file, 'lxml') imgs = soup.select("body > div > div > div > div > div > div > img") names = soup.select("body > div > div > div > div > div > div > div > h4 > a") prices = soup.select("body > div > div > div > div > div > div > div > h4.pull-right") reviews = soup.select("body > div > div > div > div > div > div > div > h4.pull-right") stars = soup.select("body > div > div > div.col-md-9 > div > div > div > div.ratings > p:nth-of-type(2)")for img, name, price, reviews, star in zip(imgs, names, prices, reviews, stars): data = { 'image':img.get('src'), 'name':name.get_text(), 'price':price.get_text(), 'reviews':reviews.get_text(), 'star':len(star.find_all('span','glyphicon-star')) } print(data)
0 0
- Python实战_1_第一周_第二节练习项目:爬取商品信息
- Python实战_0_第一周_第一节练习项目:动手做自己的网页
- Python实战1_2:爬取商品信息
- python +selenium 爬取淘宝网商品信息
- 使用python + selenium爬取淘宝商品信息
- Python实战_3_第一周_第四节课程:爬取霉霉图片
- Python实战_2_第一周_第三节课程:真实世界中的网页解析
- 第一周项目1 ;练习1
- 第一周项目1练习2
- 第一周项目1练习3
- 第一周项目1练习4
- 第一周练习题项目一练习二
- 第一周练习题项目一练习三
- Scrapy爬取亚马逊商品信息
- 课时12 第三节练习项目:爬取租房信息
- python爬虫实战(一)----------爬取京东商品信息
- 使用python利器selenium工具模拟浏览器运行并爬取淘宝商品信息
- 第一周练习计划
- BZOJ1013 [JSOI2008]球形空间产生器sphere
- 剑指Offer--042-左旋转字符串
- WEB架构师成长之路-摘录
- 1097. Deduplication on a Linked List (25)【链表】——PAT (Advanced Level) Practise
- TDPO和TSM客户端是如何实现ORACLE备份的
- Python实战_1_第一周_第二节练习项目:爬取商品信息
- Callable Future Executor
- CodeForces 672B Different is Good
- git-ssh 配置和使用
- C# 写系统日志
- #define用法
- 1098. Insertion or Heap Sort (25)【排序】——PAT (Advanced Level) Practise
- CodeForces 672D Robin Hood(二分)
- Java学习之继承