程序博客网 > python except as

python爬虫编写

来源：互联网发布：python except as 编辑：程序博客网时间：2024/05/22 03:19

python爬虫编写

最近两天有任务要批量抓取一些东西，用到了爬虫技术，两天写了三个市场的爬虫，分享一下学习经验。

大致思路

找到目标网址，F12查看源码。找到关键的下载URL。
根据特征，使用正则表达式或者直接find()找到对应的字符串。
requests.get() 和 .content 获取目标内容
运行测试，处理编码等问题

page = requests.get(main_url+"_"+str(pagenum))page = page.content

经验

一般都能在html中找到DownLoadURL，直接通过特征提取出这些即可。特征大多是某些xml标记，我没有尝试使用xml解析工具进行解析，因为那样貌似要导入新的包，可以尝试使用解析工具。
有些DownLoadURL和一般的显示详细信息URL有联系，那么可以提取详细信息的URL做变换得到DownLoadURL
发现了一个市场的下载地址会变化，大概是通过了一次跳转才到的真正的DownLoadURL，而包含在html中的DownLoadURL是在变化的，仅仅只能在这个浏览器上使用，若换一个Client则提取出来的DownLoad会变化。这就让我头疼了，仔细研究了一下感觉他是通过一个变换运算获得一个字符串，以他为基础掩饰自己真正的DownLoadURL。服务器监听Client，一次会话只能用一个对应的DownLoadURL，一旦结束会话则失效。然而知道了大概原理后的我依旧束手无策。。。
编码是个大问题，需要好好琢磨。

0 0

python except as

python except as

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子什么是瓦楞纸瓦楞纸是什么幼儿园手工制作旧纸箱儿童自制玩具100例纸箱在哪里可以买到纸箱废纸篓卫生间纸篓纸篓怎么折纸篓的折法纸篓厕所纸篓纸篓图片用5张纸全部画出简单的绘本绢纸纸绳纸扭绳纸绳手工作品图片引纸绳纸绳手工拉菲草纸绳纸绳贴画纸绳作品纸绳拖重纸绳怎么做广东纸绳厂手挽袋纸绳纸绳工艺纸绳图片纸绳贴画图片纸面膜面膜纸自制面膜塑料泡沫纸类纸膜覆膜纸千纤草压缩纸膜压缩纸膜保鲜膜纸筒纸膜面膜千纤草泡纸膜避孕膜纸蚕丝纸膜