数据采集的利与弊
来源:互联网 发布:vs2017安装勾选c语言 编辑:程序博客网 时间:2024/04/29 05:54
数据采集问题一直是站长们乐此不彼讨论的问题,各自有各自的建议,好与坏都有理。我相信大多数站长都采集过别人的东西,假如是一个小网站的话,可以每天写一篇原创假如是一个大一点的网站,不可能天天写原创,一天一篇的原创已经满足不了浏览者要求,这个时侯就需要采集。下面说采集的一些问题:
数据采集的利:
1)丰富网站内容。
通过数据采集可以快速丰富网站的内容,如果新站刚刚建成,不采集别的网站内容,恐怕网站不知猴年马月网站才能吸引到用户。所以说网站采集数据是网站初始阶段的必备的手段。但是请你把作者和原出去也采集过来,否则你就太....当心别人告发你哦。
2)集合各家不同的言论。
采集不同网站的不同的内容,可以让用户得到来自各个不同角度的看法。对于用户来说无疑是件好事。
3)搜索引擎快速收录更多的页面。
搜索引擎每天都希望看到你网站的新的内容,如果站长总是靠一个人的精力去写文章,搜索引擎恐怕对你的网站也会失去耐心。
4)有利于用户的对信息集中的需求。
所有的用户其实都希望在一个网页能看到他所需要的所有内容,当然这是不可能的,但是尽可能把相同主题的文章集中在一起,这也是用户的需求,故此我们通过转载将同一主题的不同作者的文章集中在一起,可以大大提供用户的PageView.
这里有个例子:证券报的网站每天大概有4~5篇关于基金的文章,新浪财经每天大概有10篇左右的关于基金的文章....如果我有一个基金相关的网站,并且我把不同网站的关于基金的文章集中到一起,我想用户还是希望在一个地方看到多个专家点评的。其实这个是用户的需求...
说完这些再来看看数据采集的弊端:
1)内容重复。
如今互联网内容重复性太高了,试试在搜索引擎上搜索一下内容的重复性实在是太高了。难怪这么多人痛恨数据采集。
2)无法保护版权。
比较有版权意识的站长还能保留个做者和出处,但是大部分站长在转载文章的时候连个原作者都不留,难怪招人BS.
3)搜索引擎。
搜索引擎总是希望为用户提供更多,质量更好的内容,如果每次搜索出来一长串同样的内容,岂不失败。故此搜索引擎也在不断的提供相关技术尽量减少相同内容网页的收录情况。如果某个网站被搜索引擎视为没有原创内容的网站,那这个网站基本上就等于判刑了。
4)网页凌乱。
大量的垃圾网站只是在不停的采集别人的网站内容,目的就是提高搜索引擎的收录量,依靠搜索引擎收录的内容和关键字的查询为网站带来流量。其网页凌乱广告乱飞。是在不敢恭维。
- 数据采集的利与弊
- Kafka与Logstash的数据采集
- 1.空间数据的采集与组织
- 数据采集与处理
- 数据采集与传输
- 数据采集策略:数据挖掘与统计学的一个区别
- 数据采集与反采集原理分析
- 数据采集的过程
- 并口的数据采集
- 数据采集的烦恼
- 采集gem5benchmark的数据
- 数据采集的收获
- 众包式数据采集与服务
- php正则与数据采集
- 电能量远程数据采集系统的设计与实现
- C# 在采集数据时的验证与登录处理
- 基于MATLAB的实时数据采集与分析研究
- HttpWebRequest与HttpWebResponse进行数据采集时的注意点
- 安装MSP430的LSD-FET430UIF USB仿真器驱动时出错—"INF找不到所需的段落“
- 把CSS嵌入XHTML文档的方法
- 三年网络视频传输基础总结之二(多媒体与网络转输的绝美配合-.ts文件)
- 怎样捕捉 Delete 键
- 让putty支持中文输入和显示
- 数据采集的利与弊
- stringutils.js
- 关于DBCP及使用。纯JDBC架构。
- 警告: Error while extracting database product name - falling back to empty error codes
- formatutils.js
- 在64位windows系统中Subclipse提示JavaHL找不到的错误的解决办法
- validutils.js
- 四叉树数据结构
- 状态机