爬取实习僧网站并存储到MongoDB

来源：互联网发布：au mac 破解编辑：程序博客网时间：2024/06/05 09:37

爬取实习僧网站并存储到MongoDB，菜鸟之作

爬取思路：

分析网页结构：我们在搜索栏中输入python（其他都可以），我们会发现

每个页面有10个工作岗位。
右键选择查看网页源代码，找到相应的job列表位置，但是结果是崩溃的，，这是什么鬼东西，即使能爬下来，但是我们看不懂，于是我换了一种思路。
直接找到每一个job的页面，比如，这里就要用到正则表达式（我的最爱）正则不会的点这里，然后我们就可以进入每个job页面，然后我们同样检查网页源代码，我们会发现热有些重要的信息他做了些手脚，但是我们还是可以爬一些的，所以根据以上，我们可以写出相应的正则。
思路其实很简单，下面就是我的代码

import requestsimport reimport pymongoheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36'}MongoUrl= 'localhost'MongoDB = 'Shixiceng'MongoTable = 'shixiceng'def Gethtml(url):    try:        html = requests.get(url,headers=headers)        if html.status_code == 200:            return html.text    except Exception as e:        print(e,"1")def parse_html(html):    job_url = []    pattern = r'<div class="names cutom_font"><a href="(.*?)" target="_blank">.*?</a>'    result = re.findall(pattern,html,re.S)    Url = "http://www.shixiseng.com"    for i in result:        parse_url = Url + i        job_url.append(parse_url)    return job_urldef Get_jobInfo(url):    try:        html = requests.get(url, headers=headers)        if html.status_code == 200:            reg = r'<div class="new_job_name" title=".*?">(.*?)</div>'            job_name = re.findall(reg, html.text)[0]            reg = r'<span title=".*?" class="job_position">(.*?)</span>'            job_city = re.findall(reg, html.text)[0]            reg = r'<div class="job_detail">(.*?)</div>'            job_limit = re.findall(reg,html.text)[0]            return {                'job_name' : job_name,                'job_city' : job_city,                'job_limit' : job_limit            }    except Exception as e:        print(e,"2")def Save_Mongo(result):    client = pymongo.MongoClient(MongoUrl,connect=False)    db = client[MongoDB]    if db[MongoTable].insert(result):        print("数据存储成功")def main():    for page in range(1,20):        try:            url = 'http://www.shixiseng.com/interns?k=Python&t=zj&p={}'.format(page)            html = Gethtml(url)            job_url = parse_html(html)            for i in job_url:                Result = Get_jobInfo(i)                Save_Mongo(Result)        except Exception as e:            print(e,"3")if __name__ == '__main__':    main()

-爬取速度很快，存储的也很快，下面就是我爬取的一些结果这是mongodb最好用的可视化工具robomongdb

最后，由于时间不加紧促，还有一些功能没有写进去，希望你们原谅，另外知道有哪位大神如何解决页面的字符问题的可以给我留言，谢谢。

阅读全文

0 0