爬虫

来源：互联网发布：win8无法安装软件编辑：程序博客网时间：2024/04/30 00:35

基础工具

Scrapy

http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html
scrapy startproject yourProjectName

Beautiful Soup

http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

天猫评论

这里写图片描述
首先先打开所需爬取的商品的累计评价页面

然后f12或鼠标右键审查元素，找到Network页面然后清除内容，点击评论里面的下一页加载动态资源，然后Network会随之更新，找到如图所示的script页面打开，如下图所示
这里写图片描述
这里的Requst URL就是我们要找的评论的原文件了，复制链接在新网格打开，如下图所示

这是json格式的文件，后面解析这个文件就可以了。

通过修改这个currentPage=1可以爬取其他页面的数据

不知道是是什么原因，文件的编码一直不对不能直接用json解析，索性直接用re吧
content= (re.findall(r‘“rateContent”:”(.*?)”,”rateDate”’, tb_req, re.S))
这里写图片描述

分类新闻

这里主要介绍的是爬取搜狗浏览器里面的分类新闻内容，这里面新闻都做好分类了，可以直接按类爬取，是个不错的资源哦。
这里写图片描述
这个里面没有给任何网址，同样右键审查元素如下图所示选Network菜单栏，在导航栏点一个分类。

分析其中一个可见，这里面已经有了分类、内容摘要、时间、来源、题目、以及原文链接。
{“bucket”:”军事”,”content”:”【中国海军下饺子，该下多少饺子，该以什么样的速度下饺子，这在最近成了观察者网军事评论栏目的一个热门话题，本文作者剪水鹱针对这个问题，再一次提出了自己的一些见解和看法，以飨读者。】【文/观察者网专栏作者”,”images”:[{“height”:0,”name”:”http://img03.sogoucdn.com/v2/thumb/resize/w/200/h/140/t/2/crop/w/200/h/140/t/0/xy/face/x/0/y/0?appid=200576&url=http://img03.sogoucdn.com/app/a/100540018/fda404f1a13836e1f096101378bdf2bd“,”width”:0}],”index”:172721,”publish_time”:1490356920,”source”:”观察者网”,”title”:”剪水鹱：中国海军下饺子≠穷兵黩武”,”url”:”http://www.guancha.cn/JianShuiHu/2017_03_23_400134.shtml“},

接下来可以修改这个上面的那个网址里面的内容如下图所示
这里写图片描述
这里的b就是栏目，count就是新闻数，这个默认的是30，而我已经设置为6000了仍然可以正常显示。所以用这个还是可以爬到不少分类新闻的。
前面只是爬到了链接，但没有具体内容，如果用这个链接去一个网站网站地去爬取，那还是算了吧，，，
不过搜狗浏览器已经给我们爬好了。
这里写图片描述

只要替换这里面地链接地址就可以轻松地爬取到想要地内容了。

0 0