Python应用系列(1),抓取aso100网站的app排名
来源:互联网 发布:软件需求管理系统 编辑:程序博客网 时间:2024/05/18 02:19
Python应用系列(1),抓取aso100网站的app排名。
背景:要过年了,要做2016一年的判断,需要和同行业对比,判断趋势。
用途:根据aso100.com网站,抓取新分类下的app应用排名列表,导出到Excel文件。
说明:此段代码仅供学习交流,欢迎评论。
知识点:
1. BeautifulSoup,真心说好用。文档地址 https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
2. csv读写,文档地址 https://docs.python.org/3.5/library/csv.html
3. 字符串操作 split
import requests
from bs4 import BeautifulSoup
newsurl='https://aso100.com/rank/index/country/cn/device/iphone/brand/free/genre/6009'
res=requests.get(newsurl)
res.encoding="utf-8"
soup =BeautifulSoup(res.text,"html.parser")
#print(soup.prettify())
import csv
with open('C:/xxx.csv', 'w', newline='') ascsvfile:
spamwriter = csv.writer(csvfile, delimiter=' ',
quotechar='|', quoting=csv.QUOTE_MINIMAL)
spamwriter.writerow(['id','url','总排名','分类排名','app名称','公司'])
for link in soup.find_all('div',class_="thumbnail"):
total='-'
if(len(link.h6.next_sibling.next_sibling)>1):
total=link.h6.next_sibling.next_sibling.contents[1].text
id=link.a['href'].split('/')[4]
url='https://aso100.com'+ link.a['href']
spamwriter.writerow([id,url,total,''.join(link.a.h5.text.split('.')[0:1]),''.join(link.a.h5.text.split('.')[1:2]),link.a.h6.text])
print ('抓取完毕')
#查看
with open('C:/xxx.csv', newline='') ascsvfile:
spamreader = csv.reader(csvfile, delimiter=' ', quotechar='|')
for row in spamreader:
print(', '.join(row))
原文地址: http://blog.csdn.net/lanmao100/article/details/54025983
转载请注明。
- Python应用系列(1),抓取aso100网站的app排名
- 简单的Python抓取招聘网站信息(1)
- python抓取南阳理工学院ACM网站排名信息
- 做一个介绍galgame的app (抓取网站内容)
- 【ASO100独家】2015年App Store审核被拒的23个理由
- 详解抓取网站,模拟登陆,抓取动态网页的原理和实现(Python,C#等)
- Python 抓取【参考消息网站】的新闻
- 配合scrapy,用请求方式抓取一些网站内容。例如抓取360手机应用APP信息。
- python 抓取google play 各搜索词排名
- 网站如何被蜘蛛抓取并取得较好排名的优化技巧
- 使用python/casperjs编写终极爬虫-客户端App的抓取
- 使用python/casperjs编写终极爬虫-客户端App的抓取
- 使用python/casperjs编写终极爬虫-客户端App的抓取
- 使用python/casperjs编写终极爬虫-客户端App的抓取
- python抓取谷歌app市场的icon
- Python爬虫:抓取手机APP的传输数据
- Python爬虫:抓取手机APP的传输数据
- 检测百度关键字网站排名的python 程序
- 20170104
- pro git 版本控制
- Java中泛型的解说
- linux sed
- GCD
- Python应用系列(1),抓取aso100网站的app排名
- JVM学习(1)--Java内存区域
- nonce和timestamp在Http安全协议中的作用
- 知识库--Power of Concurrency (71)
- 12.第二节 SAPI概述
- /proc/loadavg
- hdu 1087 Super Jumping! Jumping! Jumping!
- 递归法实现折半查找
- 114. Flatten Binary Tree to Linked List