58批量数据爬取
来源:互联网 发布:广东人年轻 知乎 编辑:程序博客网 时间:2024/05/14 06:53
爬取58上100页的某商品分类信息,代码如下:
from bs4 import BeautifulSoupimport requestsimport timeimport lxmldef get_links_from(who_sells,page=1): urls = [] list_view = 'http://xa.58.com/pbdn/'+str(who_sells)+'/pn{}/'.format(str(page)) web_data = requests.get(list_view) soup = BeautifulSoup(web_data.text,'lxml') for link in soup.select('td.t > a[onclick]'): urls.append(link.get('href').split('?')[0]) return urlsdef get_item_info(who_sells=0,page=1): urls=get_links_from(who_sells,page) for url in urls: web_data = requests.get(url) time.sleep(1) soup = BeautifulSoup(web_data.text,'lxml') data = { 'title' : soup.select('div.box_left_top > h1')[0].text, 'price' : soup.select('div.price_li > span > i')[0].text, 'area' : soup.select('div.palce_li > span > i')[0].text, 'look_time' : soup.select('div.box_left_top > p > span.look_time')[0].text, 'want_person':soup.select('div.box_left_top > p > span.want_person')[0].text, 'cate' :'个人' if who_sells==0 else '商家' } print(data)for page in range(1,101): get_item_info(who_sells=0,page=page)
结果如图:
阅读全文
1 0
- 58批量数据爬取
- python 批量爬取博客数据(仅供学习)
- hiernate抓取策略与批量更新、批量取数据
- 使用python批量爬取apk文件
- python+selenium批量爬取ieeexplore论文
- 爬取高考数据
- 证券数据爬取
- php爬取数据
- 动态数据爬取
- python爬取数据
- htmlunit爬取数据
- admob数据爬取
- facebook数据爬取
- Git批量拉取
- 爬取google scholar数据
- nutch爬取不到数据
- perl 爬取数据<1>
- perl 爬取同花顺数据
- Yarn下Mapreduce的内存参数理解
- 基于Dragonboard410c的智能音箱(一)
- Maven详解之仓库------本地仓库、远程仓库
- OTA升级Google官方文档翻译——设备专属代码
- oracle 事务概念
- 58批量数据爬取
- 第四篇:守护线程与线程阻塞的四种情况
- Shell脚本判断IP是否合法性(多种方法)
- java 生成条形码
- 测试实习随笔(一)
- RabbitMQ 入门指南(Java)
- Optane ,内存,flash 工作原理对比
- 笔记
- 搭建博客网站选择bluehost香港主机好吗?