爬取实习僧网站并存储到MongoDB
来源:互联网 发布:au mac 破解 编辑:程序博客网 时间:2024/06/05 09:37
爬取实习僧网站并存储到MongoDB,菜鸟之作
爬取思路:
分析网页结构:我们在搜索栏中输入python(其他都可以),我们会发现
每个页面有10个工作岗位。右键选择查看网页源代码,找到相应的job列表位置,但是结果是崩溃的,,这是什么鬼东西,即使能爬下来,但是我们看不懂,于是我换了一种思路。
- 直接找到每一个job的页面,比如,这里就要用到正则表达式(我的最爱)正则不会的点这里,然后我们就可以进入每个job页面,然后我们同样检查网页源代码,我们会发现热有些重要的信息他做了些手脚,但是我们还是可以爬一些的,所以根据以上,我们可以写出相应的正则。
- 思路其实很简单,下面就是我的代码
import requestsimport reimport pymongoheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36'}MongoUrl= 'localhost'MongoDB = 'Shixiceng'MongoTable = 'shixiceng'def Gethtml(url): try: html = requests.get(url,headers=headers) if html.status_code == 200: return html.text except Exception as e: print(e,"1")def parse_html(html): job_url = [] pattern = r'<div class="names cutom_font"><a href="(.*?)" target="_blank">.*?</a>' result = re.findall(pattern,html,re.S) Url = "http://www.shixiseng.com" for i in result: parse_url = Url + i job_url.append(parse_url) return job_urldef Get_jobInfo(url): try: html = requests.get(url, headers=headers) if html.status_code == 200: reg = r'<div class="new_job_name" title=".*?">(.*?)</div>' job_name = re.findall(reg, html.text)[0] reg = r'<span title=".*?" class="job_position">(.*?)</span>' job_city = re.findall(reg, html.text)[0] reg = r'<div class="job_detail">(.*?)</div>' job_limit = re.findall(reg,html.text)[0] return { 'job_name' : job_name, 'job_city' : job_city, 'job_limit' : job_limit } except Exception as e: print(e,"2")def Save_Mongo(result): client = pymongo.MongoClient(MongoUrl,connect=False) db = client[MongoDB] if db[MongoTable].insert(result): print("数据存储成功")def main(): for page in range(1,20): try: url = 'http://www.shixiseng.com/interns?k=Python&t=zj&p={}'.format(page) html = Gethtml(url) job_url = parse_html(html) for i in job_url: Result = Get_jobInfo(i) Save_Mongo(Result) except Exception as e: print(e,"3")if __name__ == '__main__': main()
-爬取速度很快,存储的也很快,下面就是我爬取的一些结果
最后,由于时间不加紧促,还有一些功能没有写进去,希望你们原谅,另外知道有哪位大神如何解决页面的字符问题的可以给我留言,谢谢。
阅读全文
0 0
- 爬取实习僧网站并存储到MongoDB
- 简书文章爬取并存储到mongodb
- 5分钟掌握智联招聘网站爬取并保存到MongoDB数据库
- Scrapy+MongoDB爬取并存储豌豆荚App数据
- Kaggle数据条目爬取存储到mongodb
- 利用python爬取实习僧网站上的数据
- 使用Python和BeautifulSoup爬取历史上的今天网站并将描述及网址存储到csv文件中
- scrapy爬取豆瓣电影top250并存储到mysql
- python3爬虫 爬取图片,爬取新闻网站文章并保存到数据库
- 四.BeautifulSoup爬取51job任意职位并且存储到mongodb
- 五.BeautifulSoup大众点评爬取店铺信息,存储到mongodb
- 使用Scrapy爬取笑话并存储到文件和MySQL
- 爬取腾讯招聘scrapy框架实现,并以(表格,json)形式存储到本地
- #python学习笔记#使用python爬取网站数据并保存到数据库
- 自动爬取网站并截图
- python爬取数据并将其存入mongodb
- Python网络爬虫——模拟登陆爬取网站数据并加载到excl表格里
- 爬取猫眼top100电影并存储在mysql中
- 内存泄漏、越界、溢出
- 训练3+ C-Lunch Break
- SpringBoot01--入门实例
- JS怎么动态命名变量名
- Java中集合(六)Queue
- 爬取实习僧网站并存储到MongoDB
- day4
- 继承和派生
- Nginx——debug的使用
- Function Reference >> Other Basic Extensions >> SPL >> Datastructures
- QuartZ Cron表达式
- JS 定时器 setInterval、clearInterval
- Proteus中的 PIC10/12/16 MCUs编译器无法下载的问题
- jenkins 参考链接