爬虫爬取信息存入数据库
来源:互联网 发布:宝马320li2017款数据 编辑:程序博客网 时间:2024/05/16 15:35
爬取这样的信息
取得号码,价格以及对应的链接存入mongodb代码如下:
from bs4 import BeautifulSoupimport requestsimport pymongoimport timeclient = pymongo.MongoClient('localhost',27017)data_58 = client['data_58']shoujihao = data_58['shoujihao']def get_data(url): web_data = requests.get(url) soup = BeautifulSoup(web_data.text, 'lxml') no_longer_exist = soup.find('script', type="text/javascript").get('src') if no_longer_exist != None: pass else: url_links = soup.select('div.boxlist > ul > li > a') for url_link in url_links: if 'bj.58.com' in url_link.get('href'): if len(url_link.select('b.price')) > 0: price = url_link.select('b.price')[0].get_text() else: price = '面议' data = { 'title': url_link.select('strong')[0].get_text(), 'link': url_link.get('href').split('?')[0], 'price': price } print(data) shoujihao.insert_one(data)#pages要爬取的页数def main(pages): count = 0 urls = ['http://bj.58.com/shoujihao/pn{}/'.format(str(i)) for i in range(0,pages+1)] for url in urls: get_data(url) print(count) count+=1 time.sleep(2)main(116)
得到如下存储
0 0
- 爬虫爬取信息存入数据库
- Java 爬取信息存入数据库
- Python爬虫小实践:寻找失踪人口,爬取失踪儿童信息并写成csv文件,方便存入数据库
- Python爬虫小实践:寻找失踪人口,爬取失踪儿童信息并写成csv文件,方便存入数据库
- java 使用webmagic 爬虫框架爬取博客园数据存入数据库
- 爬虫爬取股票信息
- 关于Python爬虫爬淘宝mm详细教程+存入数据库
- 爬虫爬取页面信息及图片链接
- java爬虫 爬取图书信息
- 爬虫之爬取基金信息
- Python爬虫爬取豆瓣图书的信息和封面,放入MySQL数据库中。
- Python爬虫-爬取51job.com 招聘信息并写入文件和数据库mysql
- nodejs 爬取热点明星存入mysql数据库
- python爬取的小说存入mysql数据库
- Log4net自定义信息存入数据库
- Log4net自定义信息存入数据库
- scrapy爬虫数据存入mysql数据库
- 【Python爬虫】requests+Beautifulsoup存入数据库
- Android之mvp设计模式
- hihoCoder #1032 : 最长回文子串
- C#三十四 常用开发的部分总结
- 我对mybatis的理解
- [leetcode] 179. Largest Number
- 爬虫爬取信息存入数据库
- Spring Mybatis整合
- 【醒目】【业界偷懒】【Public】BZOJ题目一句话题解整理
- opencv中批量读取图片并保存
- 【网络流之最大流】HDU3549Flow Problem【EK模板】
- 40.左旋转字符串:string.append()应用
- <OJ_Sicily>1214信号分析
- 一篇文章看懂iOS代码块Block
- 【连载】关系型数据库是如何工作的?(14) - 查询管理器之Nested Join