爬虫抓取美团网上所有商家信息
来源:互联网 发布:apache 安装 编辑:程序博客网 时间:2024/04/24 15:00
由于美团网对于IP访问次数有限制,当访问达到一定次数美团会增加延迟,访问次数再增加时就会有验证码,所以爬取时就需要注意控制访问的频率,以及访问一定次数后更换代理IP.
在爬取过程中我们可以先抓取所有的城市数据所有城市数据.
查看页面代码时发现很有规律,所以可以很容易抓取:
获取到城市的数据保存到txt文件中,接下来 我们就要先获取到分类信息:
获取这些数据到时候用来拼接成url链接,由于美团商家数据有些是用ajax加载的,虽然有办法处理 但是比较麻烦所以我觉定,分类获取区/县和商圈 这样就可以不用处理ajax加载的情况.
再拼接之前获取到的类型,这样我们就可以获取到一个商圈的一个小类,这是比较小的范围所以没有太多的商家,为了方便下次爬取数据,我先把商家的url保存下来,再进到每个商家里获取数据.
获取到所有的商家的url后,现在就到我们的最后一步了,但是要注意的是不同种类型的数据页面是不同的.比如酒店
所以对于不同种类型,需要写不同的解析函数.最后就是爬取的时候不应该追求快,美团限制很严,最好多线程 几秒请求一次.接下来就慢慢让它跑了.最后我跑了两个多星期才跑完全部.
分为四大类:
电影院 8195个
酒店 211129
美食大类 490928
生活大类 432803
总共 115万 条数据
这里就只说明爬取的逻辑 不提供代码,有能力的同学自己写,没能力问别人怎么写.
最近又写了 爬虫抓取糯米网上所有商家数据
日期 2017-04-04
如果需要这份数据 可以联系我:zhenpeng_lin#qq.com #换成@
1 0
- 爬虫抓取美团网上所有商家信息
- 爬虫抓取糯米网上所有商家数据
- 使用python抓取美团商家信息
- 如何使用爬虫采集美团外卖商家信息
- 爬虫实战----美团外卖商家数据接口分析
- 外卖订单爬虫 定时自动抓取三大外卖平台上商家订单(美团,饿了么,百度外卖)
- 美团商家分类菜单
- 爬虫抓取火车票信息
- Python爬虫练习之一:抓取美团数据
- python3爬虫--抓取网页信息
- python3爬虫--抓取天气信息
- [js高手之路]Node.js实现简易的爬虫-抓取博客所有文章列表信息
- 用post方法从网上抓取信息
- 实例讲解asp抓取网上信息
- 用post方法从网上抓取信息
- 用post方法从网上抓取信息
- Python爬虫抓取贴吧所有标题
- 抓取防爬虫的网站信息
- 蓝牙连接建立
- Dagger2使用进阶
- 读取common.properties文件
- jzoj 4683. 【GDOI2017模拟8.11】矩阵 后缀数组+哈希表
- Android开源库之使用ZXing开源库实现二维码功能
- 爬虫抓取美团网上所有商家信息
- oracle 启动监听提示 :The listener supports no services
- 重建二叉树
- 简单了解字符与字符集
- 测试
- 导入c标签等,以及${pageContext.request.contextPath}的作用
- List数据生成CSV文件
- leetcode():Permutations
- git 的初级使用