四.BeautifulSoup爬取51job任意职位并且存储到mongodb
来源:互联网 发布:指纹锁品牌 知乎 编辑:程序博客网 时间:2024/06/05 22:51
#coding:utf-8import requestsimport reimport urllib2from pymongo import MongoClientfrom bs4 import BeautifulSoup#抓取51job相关职位信息def get_url(): #连接mongo数据库 cn=MongoClient(host='127.0.0.1',port=27017) db=cn.job table=db.autoTable #初始化数据 rel=True line=1 url_name=urllib2.quote(name.encode('utf-8')) header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'} while rel: url='http://search.51job.com/list/020000,000000,0000,00,9,99,{},2,{}.html'.format(url_name.replace('%','%25'),line) rq=requests.get(url,headers=header) bs=BeautifulSoup(rq.content,'html.parser') page=bs.find('span',class_="td").string page_num=re.search('\d{1,}',page).group() if line<=int(page_num): print u'正在抓取%s页面信息'%line # print bs.prettify(encoding='gbk') div=bs.find_all('div',class_="el") for data in div: if data.find_all('p', class_="t1 "): jobdic={} #正则获取需要的信息 jobdic['job_name']=data.p.span.a.attrs['title'] jobdic['job_request_href']=data.p.span.a.attrs['href'] jobdic['job_company']=data.find('span',class_="t2").a.attrs['title'] jobdic['job_place']=data.find('span',class_="t3").string jobdic['job_money']=data.find('span',class_="t4").string jobdic['job_pushtime']=data.find('span',class_="t5").string #存储数据 table.save(jobdic) line+=1 else: rel=Falseif __name__=='__main__': name=u'自动化测试工程师' get_url()
阅读全文
1 0
- 四.BeautifulSoup爬取51job任意职位并且存储到mongodb
- 二.selenium爬取51job任意职位信息
- 爬取51job的职位信息
- 五.BeautifulSoup大众点评爬取店铺信息,存储到mongodb
- 一.BeautifulSoup 多进程抓取智联招聘信息,并且存储到mongodb
- Python爬取网页信息并且存储到MySQL数据库
- 用PHP爬取51job上苏州地区的PHP职位信息
- 爬取实习僧网站并存储到MongoDB
- Kaggle数据条目爬取存储到mongodb
- 简书文章爬取并存储到mongodb
- 使用Python和BeautifulSoup爬取历史上的今天网站并将描述及网址存储到csv文件中
- [python爬虫] BeautifulSoup爬取+CSV存储贵州农产品数据
- 51Job自动收藏职位
- python3爬取使用BeautifulSoup爬取前程无忧的python招聘信息入库MongoDB!
- scrapy爬虫实战(四)--------------登陆51job并使用cookies进行爬取
- 使用BeautifulSoup爬取植物图片
- 爬取招聘职位一
- 51Job职位搜索助手(源码)
- Mysql学习总结(47)——MySQL大表优化方案
- 安装Mysql遇到的常见问题及解决方法
- PAT (Advanced Level) Practise 1101 Quick Sort (25)
- windows powershell 命令笔记
- windows装ubuntu的各种疑难杂症【适合win8以上】
- 四.BeautifulSoup爬取51job任意职位并且存储到mongodb
- Projuect Euler 23
- springMVC整合Freemarker例子
- Android 短信验证倒计时控件实现
- JAVA 方法区是在堆里面吗
- 惟伊·京汉方内部启动会圆满成功
- java非基础知识点测试
- 《剑指offer》从尾到头打印链表
- UE4 蓝图获取LeapMotion Grab Strength 判断是否握拳(Grab Strength)抓取