使用BeautifulSoup爬取小猪短租的租房信息
来源:互联网 发布:腾讯游戏策划 知乎 编辑:程序博客网 时间:2024/05/16 19:19
直接上代码
没有添加间隔时间
几页之后就被封了
#!/user/bin/env python#-*- coding:utf-8 -*-from bs4 import BeautifulSoupimport requestsimport re#函数求详细信息def get_detail(urls): web_data = requests.get(urls) soup = BeautifulSoup(web_data.text,'lxml') # 获取标题,select获取列表,[0],获取第一个就是我们要的 titles = soup.select('div.con_l > div.pho_info > h4')[0].text # 获取地址 addr = soup.select('div.pho_info > p > span')[0].text # 获取租金 day_cost = soup.select('#pricePart > div.day_l > span')[0].text # 房源图片 imgs = soup.select('img[id="curBigImage"]')[0].get('src') # 房东图 load_imgs = soup.select('div.member_pic > a > img')[0].get('src') # 房东网民 load_names = soup.select('div.w_240 > h6 > a')[0].text # 房东性别 load_sexs = soup.select('div.member_pic > div')[0].get('class')[0] #判断房东男女 if load_sexs == 'member_ico': load_sexs = '男' else: load_sexs = '女' #title, add, day_costs, img, load_img, load_name, load_sex datas = [titles,addr,day_cost,imgs,load_imgs,load_names,load_sexs] data = { 'title':datas[0], 'add':datas[1], 'day_cost':datas[2], 'img':datas[3], 'load_img':datas[4], 'load_name':datas[5], 'load_sexs':datas[6] } print(data)#爬取1页中的24个链接def get_link(url):#url = 'http://sh.xiaozhu.com/search-duanzufang-0/?startDate=2017-11-30&endDate=2017-12-01' web_datas = requests.get(url) soup = BeautifulSoup(web_datas.text,'lxml')#链接 for i in range(23): link = soup.find_all(href=re.compile(r'http://sh.xiaozhu.com/fangzi/.'))[i].get('href') get_detail(link)get_link('http://sh.xiaozhu.com/search-duanzufang-0/?startDate=2017-11-30&endDate=2017-12-01')for i in range(2,10): get_link('http://sh.xiaozhu.com/search-duanzufang-p%d-0/?startDate=2017-11-30&endDate=2017-12-01'%i)
过程
阅读全文
0 0
- 使用BeautifulSoup爬取小猪短租的租房信息
- Python爬虫入门 | 5 爬取小猪短租租房信息
- 基于BeautifulSoup的58同城的南山区租房信息爬取
- 爬取大学公告信息 beautifulsoup的使用
- python3爬取使用BeautifulSoup爬取前程无忧的python招聘信息入库MongoDB!
- Python爬虫--爬取赶集网的租房信息
- 使用BeautifulSoup爬取“0daydown”网站的信息(1)
- 使用BeautifulSoup爬取“0daydown”网站的信息(2)——字符编码问题解决
- 基于BeautifulSoup爬取豆瓣网上的电影信息
- 使用BeautifulSoup爬取植物图片
- 使用BeautifulSoup爬取“0dayin”网站的资源
- Python实战1_3:爬取租房信息
- 课时12 第三节练习项目:爬取租房信息
- 四周实现爬虫系统(2)---爬取租房信息
- Python 爬虫学习2爬取租房网站信息
- 使用BeautifulSoup爬取github内容示例
- 使用BeautifulSoup爬取CSDN博客文章
- python+beautifulsoup+smtp爬取学院网站的信息公告+邮件发送
- Android 出现错误 java.lang.NoSuchMethodError:com.demo.main.MainActivity.getDrawable
- 图像阈值化
- vim编辑器 python 最简洁的配置
- 概率论与统计学——学习资料(更新..........)
- [读书学习]DevOps
- 使用BeautifulSoup爬取小猪短租的租房信息
- 阿里云MaxCompute携手华大基因打造精准医疗应用云平台
- 模糊
- 网络图片设置为控件背景图
- 使用const,static,extern
- Apache服务器最新版下载、安装及配置(windows版)
- Java中Json对象与String的相互转化,以及String与Map之间的转换,以及ArrayList中添加对象
- Tomcat安装及其目录结构介绍
- Xcode 最新安装插件方案