利用BS实现安居客房地产中介信息的爬取

来源:互联网 发布:大学数据库课程设计 编辑:程序博客网 时间:2024/04/26 23:32

    http://beautifulsoup.readthedocs.io/zh_CN/latest/ 这是官方文档


利用BS对安居客上主要信息的爬取。

红框框内的就是这次爬取的主要信息,bs对于正则表达式来说,简单了许多,比如说:


利用F12加F5,进行查询,当我们查看,我们需要的信息在哪一个类的下面,它的标签是什么。当我们需要的时候用什么标签进行提取,还有具体不懂的地方可以进行观看官方文档。

这是全部的代码:

#!/usr/bin/python#  -*- coding: utf-8 -*from bs4 import BeautifulSoupimport urllibimport urllib2import reimport osi=1for i in range(1,7):        url=' https://beijing.anjuke.com/tycoon/pi'        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'        headers = { 'User-Agent' : user_agent }        request = urllib2.Request(url,headers = headers)        response = urllib2.urlopen(request)        content = response.read()        soup=BeautifulSoup(content)        text=soup.find_all('div',class_='jjr-itemmod')        for k in text:            s=(k.get_text(strip=True))+'\n'            print s            f1 = open('58.txt','a')            f1.write(s.encode('UTF-8'))            f1.close()


原创粉丝点击