python爬虫编写

来源:互联网 发布:python except as 编辑:程序博客网 时间:2024/05/22 03:19

python爬虫编写

最近两天有任务要批量抓取一些东西,用到了爬虫技术,两天写了三个市场的爬虫,分享一下学习经验。

大致思路

  1. 找到目标网址,F12查看源码。找到关键的下载URL。
  2. 根据特征,使用正则表达式或者直接find()找到对应的字符串。
  3. requests.get() 和 .content 获取目标内容
  4. 运行测试,处理编码等问题
page = requests.get(main_url+"_"+str(pagenum))page = page.content

经验

  1. 一般都能在html中找到DownLoadURL,直接通过特征提取出这些即可。特征大多是某些xml标记,我没有尝试使用xml解析工具进行解析,因为那样貌似要导入新的包,可以尝试使用解析工具。
  2. 有些DownLoadURL和一般的显示详细信息URL有联系,那么可以提取详细信息的URL做变换得到DownLoadURL
  3. 发现了一个市场的下载地址会变化,大概是通过了一次跳转才到的真正的DownLoadURL,而包含在html中的DownLoadURL是在变化的,仅仅只能在这个浏览器上使用,若换一个Client则提取出来的DownLoad会变化。这就让我头疼了,仔细研究了一下感觉他是通过一个变换运算获得一个字符串,以他为基础掩饰自己真正的DownLoadURL。服务器监听Client,一次会话只能用一个对应的DownLoadURL,一旦结束会话则失效。然而知道了大概原理后的我依旧束手无策。。。
  4. 编码是个大问题,需要好好琢磨。
0 0