爬虫

来源:互联网 发布:win8无法安装软件 编辑:程序博客网 时间:2024/04/30 00:35

基础工具

Scrapy

http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html
scrapy startproject yourProjectName

Beautiful Soup

http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

天猫评论

这里写图片描述
首先先打开所需爬取的商品的累计评价页面
这里写图片描述
然后f12或鼠标右键审查元素,找到Network页面然后清除内容,点击评论里面的下一页加载动态资源,然后Network会随之更新,找到如图所示的script页面打开,如下图所示
这里写图片描述
这里的Requst URL就是我们要找的评论的原文件了,复制链接在新网格打开,如下图所示
这里写图片描述
这是json格式的文件,后面解析这个文件就可以了。
这里写图片描述
通过修改这个currentPage=1可以爬取其他页面的数据

不知道是是什么原因,文件的编码一直不对不能直接用json解析,索性直接用re吧
content= (re.findall(r‘“rateContent”:”(.*?)”,”rateDate”’, tb_req, re.S))
这里写图片描述

分类新闻

这里主要介绍的是爬取搜狗浏览器里面的分类新闻内容,这里面新闻都做好分类了,可以直接按类爬取,是个不错的资源哦。
这里写图片描述
这个里面没有给任何网址,同样右键审查元素如下图所示选Network菜单栏,在导航栏点一个分类。
这里写图片描述
这里写图片描述
分析其中一个可见,这里面已经有了分类、内容摘要、时间、来源、题目、以及原文链接。
{“bucket”:”军事”,”content”:”【中国海军下饺子,该下多少饺子,该以什么样的速度下饺子,这在最近成了观察者网军事评论栏目的一个热门话题,本文作者剪水鹱针对这个问题,再一次提出了自己的一些见解和看法,以飨读者。】【文/观察者网专栏作者”,”images”:[{“height”:0,”name”:”http://img03.sogoucdn.com/v2/thumb/resize/w/200/h/140/t/2/crop/w/200/h/140/t/0/xy/face/x/0/y/0?appid=200576&url=http://img03.sogoucdn.com/app/a/100540018/fda404f1a13836e1f096101378bdf2bd“,”width”:0}],”index”:172721,”publish_time”:1490356920,”source”:”观察者网”,”title”:”剪水鹱:中国海军下饺子≠穷兵黩武”,”url”:”http://www.guancha.cn/JianShuiHu/2017_03_23_400134.shtml“},

接下来可以修改这个上面的那个网址里面的内容如下图所示
这里写图片描述
这里的b就是栏目,count就是新闻数,这个默认的是30,而我已经设置为6000了仍然可以正常显示。所以用这个还是可以爬到不少分类新闻的。
前面只是爬到了链接,但没有具体内容,如果用这个链接去一个网站网站地去爬取,那还是算了吧,,,
不过搜狗浏览器已经给我们爬好了。
这里写图片描述
这里写图片描述
只要替换这里面地链接地址就可以轻松地爬取到想要地内容了。

0 0
原创粉丝点击