通用爬虫(搜索网站爬虫)
来源:互联网 发布:阿里云 百度云 知乎 编辑:程序博客网 时间:2024/05/29 09:15
1.通用爬虫:搜索引擎用的爬虫系统。
-1目标:就是尽可能把互联网上所有的网页下载下来,放到本地服务器里形成备份,
再对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。
-2抓取流程:
a) 首选选取一部分已有的URL,把这些URL放到待爬取队列。
b) 从队列里取出这些URL,然后解析DNS得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器。
之后把这个爬过的URL放入已爬取队列。
c) 分析这些网页内容,找出网页里其他的URL连接,继续执行第二步,直到爬取条件结束。
-3 搜索引擎如何获取一个新网站的URL:
1. 主动向搜索引擎提交网址:http://zhanzhang.baidu.com/linksubmit/url
2. 在其他网站里设置网站的外链。
3. 搜索引擎会和DNS服务商进行合作,可以快速收录新的网站。
DNS:就是把域名解析成IP的一种技术。
-4 通用爬虫并不是万物皆可爬,它也需要遵守规则:
Robots协议:协议会指明通用爬虫可以爬取网页的权限。
Robots.txt 只是一个建议。并不是所有爬虫都遵守,一般只有大型的搜索引擎爬虫才会遵守。
咱们个人写的爬虫,就不管了。
-5 通用爬虫工作流程:爬取网页 - 存储数据 - 内容处理 - 提供检索/排名服务
-6 搜索引擎排名:
1. PageRank值:根据网站的流量(点击量/浏览量/人气)统计,流量越高,网站也越值钱,排名越靠前。
2. 竞价排名:谁给钱多,谁排名就高。
-7 通用爬虫的缺点:
1. 只能提供和文本相关的内容(HTML、Word、PDF)等等,但是不能提供多媒体文件(音乐、图片、视频)和二进制文件(程序、脚本)等等。
2. 提供的结果千篇一律,不能针对不同背景领域的人提供不同的搜索结果。
3. 不能理解人类语义上的检索。
-1目标:就是尽可能把互联网上所有的网页下载下来,放到本地服务器里形成备份,
再对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。
-2抓取流程:
a) 首选选取一部分已有的URL,把这些URL放到待爬取队列。
b) 从队列里取出这些URL,然后解析DNS得到主机IP,然后去这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本地服务器。
之后把这个爬过的URL放入已爬取队列。
c) 分析这些网页内容,找出网页里其他的URL连接,继续执行第二步,直到爬取条件结束。
-3 搜索引擎如何获取一个新网站的URL:
1. 主动向搜索引擎提交网址:http://zhanzhang.baidu.com/linksubmit/url
2. 在其他网站里设置网站的外链。
3. 搜索引擎会和DNS服务商进行合作,可以快速收录新的网站。
DNS:就是把域名解析成IP的一种技术。
-4 通用爬虫并不是万物皆可爬,它也需要遵守规则:
Robots协议:协议会指明通用爬虫可以爬取网页的权限。
Robots.txt 只是一个建议。并不是所有爬虫都遵守,一般只有大型的搜索引擎爬虫才会遵守。
咱们个人写的爬虫,就不管了。
-5 通用爬虫工作流程:爬取网页 - 存储数据 - 内容处理 - 提供检索/排名服务
-6 搜索引擎排名:
1. PageRank值:根据网站的流量(点击量/浏览量/人气)统计,流量越高,网站也越值钱,排名越靠前。
2. 竞价排名:谁给钱多,谁排名就高。
-7 通用爬虫的缺点:
1. 只能提供和文本相关的内容(HTML、Word、PDF)等等,但是不能提供多媒体文件(音乐、图片、视频)和二进制文件(程序、脚本)等等。
2. 提供的结果千篇一律,不能针对不同背景领域的人提供不同的搜索结果。
3. 不能理解人类语义上的检索。
阅读全文
0 0
- 通用爬虫(搜索网站爬虫)
- 搜索&爬虫
- 通用爬虫和聚焦爬虫
- 网站爬虫
- 爬虫爬虫爬虫(一)
- SEO优化(增加搜索爬虫)
- 爬虫搜索基础篇(一)
- 爬虫搜索基础篇(二)
- 爬虫搜索基础篇(三)
- java搜索爬虫
- 屏蔽百度爬虫搜索
- 爬虫搜索与隐私
- MSpider爬虫搜索
- 百度搜索结果爬虫
- 分布式爬虫搜索
- 爬虫
- 爬虫
- 爬虫
- linux网络编程-----几种服务器模型及io多路复用函数
- 列出连通集
- 10.11
- R Note 统计基础
- java.lang.UnsupportedClassVersionError: org/apache/activemq/spring/ActiveMQConnectionFactory : Unsup
- 通用爬虫(搜索网站爬虫)
- Qt 中如何捕获窗口停用和激活的消息 Activate&Deactivate
- linux 7
- Android 系统默认打开文件的方法
- spring mvc demo案例
- 8051 系列单片机内部结构
- 远程连接mysql报错1130,is not allowed to connect to...
- idea警告:'xxx==false' can be simplified to '!xxx'
- 小程序