使用python抓取美团商家信息
来源:互联网 发布:php比较好的书籍 编辑:程序博客网 时间:2024/04/24 20:57
抓取美团商家信息
import requestsfrom bs4 import BeautifulSoupimport jsonurl = 'http://bj.meituan.com/'url_shop = 'http://bj.meituan.com/shop/{}'headers = { 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding':'gzip, deflate, sdch', 'Accept-Language':'zh-CN,zh;q=0.8', 'Cache-Control':'max-age=0', 'DNT':'1', 'Host':'bj.meituan.com', 'Proxy-Connection':'keep-alive', 'Referer':'http://bj.meituan.com/shop/286725?acm=UwunyailsW15518532529028663069.286725.1&mtt=1.index%2Fdefault%2Fpoi.pz.1.j4cijrmg&cks=58899', 'Upgrade-Insecure-Requests':'1', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}# 得到所有的二级菜单urldef get_start_menu_links(): html = requests.get(url).text soup = BeautifulSoup(html, 'lxml') links = [link.find('div').find('div').find('dl').find('dt').find('a')['href'] for link in soup.find_all('div',class_='J-nav-item') ] return linksdef get_shop_ids(url, headers=None): html = requests.get(url, headers=headers).text soup = BeautifulSoup(html, 'lxml') content_id = json.loads(soup.find('div', class_='J-scrollloader cf J-hub')['data-async-params']) return json.loads(content_id.get('data')).get('poiidList')def main(): start_menu_links = get_start_menu_links() for link in start_menu_links: for pageNum in range(4,5): category_url = link + '/all/page{}'.format(pageNum) for shop_id in get_shop_ids(category_url, headers=headers): html = requests.get(url_shop.format(shop_id), headers=headers).text soup = BeautifulSoup(html, 'lxml') shop_detail = soup.find('div', class_='summary biz-box fs-section cf') print("==================================pageNum %d shop_id: %d===================================================" % (pageNum,shop_id )) try: shop_detail.find('div', class_='fs-section__left').find('h2').find('span').text except: continue print("名称: " + shop_detail.find('div', class_='fs-section__left').find('h2').find('span').text) print("地址: " + shop_detail.find('div', class_='fs-section__left').find('p', class_='under-title').find('span').text) print("联系方式: " + shop_detail.find('div', class_='fs-section__left').find('p', class_='under-title').find_next_sibling().text)if '__main__' == __name__: main()
阅读全文
0 0
- 使用python抓取美团商家信息
- 爬虫抓取美团网上所有商家信息
- 如何使用爬虫采集美团外卖商家信息
- 使用Python抓取美团数据存于Excel中
- 使用Python抓取网页信息
- 使用Python抓取网页信息
- 使用python抓取网站信息
- 美团商家分类菜单
- 使用python抓取网页上的信息
- 使用python抓取豆瓣电影信息
- [Python]网页信息抓取
- python 页面信息抓取
- Python爬虫练习之一:抓取美团数据
- 外卖订单爬虫 定时自动抓取三大外卖平台上商家订单(美团,饿了么,百度外卖)
- 使用Python+selenium+BeautifulSoup抓取动态网页的关键信息
- 使用Python抓取网易云音乐所有歌手信息
- 订餐系统之同步美团商家订单
- 爬虫实战----美团外卖商家数据接口分析
- swift给UIbutton添加闭包扩展,方便,简单实用
- CodeM美团点评B轮:子串(E题) Java暴力解决
- 用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试
- 修改谷歌输入法源码
- 基础DP学习之【数的划分】
- 使用python抓取美团商家信息
- 获取ServletAPI
- 我对虚拟内存的理解
- 批量经纬度转成空间直角坐标系
- iOS,OC给button添加block点击事件扩展
- 第一行代码 第三章
- Hdu 6032 关于字符串的博弈
- HDU5527
- 软件编写规范(程序效率篇)