python3爬取淘女郎图片
来源:互联网 发布:重庆网络教育报名 编辑:程序博客网 时间:2024/04/29 22:06
本程序在win10环境下的sublime3中运行,其中用到了的python库有requests,json,re,so.
这是首页,网站为:https://mm.taobao.com/json/request_top_list.htm?
尝试在网站后面加&page= 1,发现依然可以访问!继续尝试修改page = 2,发现访问的是一个新的页面。于是通过修改page,来遍历每个女郎的user_id!
通过谷歌查询网页源代码,发现在源代码中有user_id这个数据,所以可以直接爬取!
进入到每个女郎的网页,点击相册,通过谷歌浏览器工具,在Network中的XHR可以看到有一个文件Open_album_list。点开文件,在headers中可以看到有个Requests URL。
进入这个链接,发现这个链接里是该女郎的所有相册。
打开这个网站的源代码,发现源代码里有album_id这个数据!
进入该女郎的一个相册,通过谷歌浏览器的工具,在Network里面的JS中发现有个get_album_photo文件,通过滑动相册的滑动条,发现JS文件有更新,查看新的文件,在Response里,发现page发生了改变,于是尝试在网址后面添加&page = 1,发现和之前的网页相同,于是可以通过在网址后面添加page和修改page的值来获取图片。
尝试打开Requsts URL这个链接,发现是个Json文件。
这个网址为:https://mm.taobao.com/album/json/get_album_photo_list.htm?user_id=687471686&album_id=10000702574&top_pic_id=0&cover=%2F%2Fimg.alicdn.com%2Fimgextra%2Fi2%2F687471686%2FTB1TlwDLFXXXXbxaXXXXXXXXXXX_!!2-tstar.png&page=1&_ksTS=1508051949055_154&callback=jsonp155
在尝试打开不同女郎的不同相册后,发现这个网址的ksTS=1508051949055_154&callback=jsonp155没有明显的规律,于是尝试删除这两个数据,再次访问删除后的网址。
这是尝试删除ksTS=1508051949055_154&callback=jsonp155后打开的网站。通过观察不同的相册里这个网址,发现有两个数据对我们有作用,第一是isError,第二个是:picUrl。当isError的值为0时,才有picUrl这个值。picUrl对应的是相册里的图片。
通过比较不同女郎的不同相册对应的网址,发现这个网址的组成为:
https://mm.taobao.com/album/json/get_album_photo_list.htm?“+user_id+ "&"+ album_id + "&top_pic_id=0&cover=%2F%2Fimg.alicdn.com%2Fimgextra&"+page
所以我们的目标就是找到所有的user_id和每个user_id对应的所有album_id。前面已经介绍了怎么获取user_id和album_id。
最后的效果:
上代码:
对代码有需要的朋友可以直接在我的博客里下载。第一次写博客,谢谢大家的支持。
- python3爬取淘女郎图片
- python3 多线程爬取淘女郎图片并保存
- python3 爬取淘女郎照片
- [python3.6]爬虫实战之爬取淘女郎图片
- python第一弹 爬虫淘女郎图片
- python爬取淘宝淘女郎图片
- python爬虫 爬取淘女郎介绍以及照片
- python实战——下载推女郎图片
- pyspider创建淘女郎图片爬虫任务--出师不利
- pyspider创建淘女郎图片爬虫任务-源码解析
- pyspider创建淘女郎图片爬虫任务-运行流程解析
- Python爬虫入门-利用scrapy爬取淘女郎照片
- 淘女郎
- Python3抓取页面图片
- Python3.X 下载图片
- Python3爬取图片
- Python3 批量下载图片
- python3下载百度图片
- 初级程序员必知的几点
- WARNING: Nothing matches the include pattern '/usr/local/php7/etc/php-fpm.d/*.conf'
- 多线程 之 interrupt
- python学习笔记(二)--语法和类基本定义
- XListView中运用到的两个方法及下拉刷新时时间设置
- python3爬取淘女郎图片
- Nodejs 学习(三)--文件操作
- AngularJS+清空购物车+全选+sort排序
- 剑指offer之重建二叉树(Python)
- There is no setter for property named 'empId' in 'class com.my.entity.Dept'
- Hibernate中HQL语句
- HDU
- 2017.10.11离线赛总结
- VMware虚拟机不能联网(xshell不能远程连接虚拟机)