python爬虫编写
来源:互联网 发布:python except as 编辑:程序博客网 时间:2024/05/22 03:19
python爬虫编写
最近两天有任务要批量抓取一些东西,用到了爬虫技术,两天写了三个市场的爬虫,分享一下学习经验。
大致思路
- 找到目标网址,F12查看源码。找到关键的下载URL。
- 根据特征,使用正则表达式或者直接find()找到对应的字符串。
- requests.get() 和 .content 获取目标内容
- 运行测试,处理编码等问题
page = requests.get(main_url+"_"+str(pagenum))page = page.content
经验
- 一般都能在html中找到DownLoadURL,直接通过特征提取出这些即可。特征大多是某些xml标记,我没有尝试使用xml解析工具进行解析,因为那样貌似要导入新的包,可以尝试使用解析工具。
- 有些DownLoadURL和一般的显示详细信息URL有联系,那么可以提取详细信息的URL做变换得到DownLoadURL
- 发现了一个市场的下载地址会变化,大概是通过了一次跳转才到的真正的DownLoadURL,而包含在html中的DownLoadURL是在变化的,仅仅只能在这个浏览器上使用,若换一个Client则提取出来的DownLoad会变化。这就让我头疼了,仔细研究了一下感觉他是通过一个变换运算获得一个字符串,以他为基础掩饰自己真正的DownLoadURL。服务器监听Client,一次会话只能用一个对应的DownLoadURL,一旦结束会话则失效。然而知道了大概原理后的我依旧束手无策。。。
- 编码是个大问题,需要好好琢磨。
0 0
- python爬虫编写
- 【Python爬虫】编写第一个爬虫
- python编写网络爬虫程序
- 用python编写网页爬虫
- python编写的简易爬虫
- python微博爬虫编写
- python轻量级爬虫的编写
- Python与简单网络爬虫的编写
- Python与简单网络爬虫的编写
- python编写的简单爬虫程序
- 利用Python编写网络爬虫下载文章
- python基础入门之简单爬虫编写
- 用 Python 编写网络爬虫 笔记
- 用 Python 编写网络爬虫 笔记
- 用 Python 编写网络爬虫 笔记
- 用 Python 编写网络爬虫 笔记
- 简单爬虫编写Python篇(1)
- python编写的新浪微博爬虫
- Hog算子
- Android NFC相关资料之MifareClassic卡(读写)
- DLL注入技术之ComRes注入
- java内部类与抽象类
- linux下使用crontab设置scrapy爬虫定时抓取数据
- python爬虫编写
- (3)
- 设计模式:观察者模式
- 开博记
- Dll注入技术之APC注入
- 【华为OJ】求int型数据在内存中存储时1的个数
- 遍历文件夹下所有文件
- linux③
- 最长上升子序列LIS