数据采集的利与弊

来源：互联网发布：vs2017安装勾选c语言编辑：程序博客网时间：2024/04/29 05:54

数据采集问题一直是站长们乐此不彼讨论的问题，各自有各自的建议，好与坏都有理。我相信大多数站长都采集过别人的东西，假如是一个小网站的话，可以每天写一篇原创假如是一个大一点的网站，不可能天天写原创，一天一篇的原创已经满足不了浏览者要求，这个时侯就需要采集。下面说采集的一些问题：

数据采集的利：

1）丰富网站内容。

通过数据采集可以快速丰富网站的内容，如果新站刚刚建成，不采集别的网站内容，恐怕网站不知猴年马月网站才能吸引到用户。所以说网站采集数据是网站初始阶段的必备的手段。但是请你把作者和原出去也采集过来，否则你就太....当心别人告发你哦。

2）集合各家不同的言论。

采集不同网站的不同的内容，可以让用户得到来自各个不同角度的看法。对于用户来说无疑是件好事。

3）搜索引擎快速收录更多的页面。

搜索引擎每天都希望看到你网站的新的内容，如果站长总是靠一个人的精力去写文章，搜索引擎恐怕对你的网站也会失去耐心。

4）有利于用户的对信息集中的需求。

所有的用户其实都希望在一个网页能看到他所需要的所有内容，当然这是不可能的，但是尽可能把相同主题的文章集中在一起，这也是用户的需求，故此我们通过转载将同一主题的不同作者的文章集中在一起，可以大大提供用户的PageView.

这里有个例子：证券报的网站每天大概有4～5篇关于基金的文章，新浪财经每天大概有10篇左右的关于基金的文章....如果我有一个基金相关的网站，并且我把不同网站的关于基金的文章集中到一起，我想用户还是希望在一个地方看到多个专家点评的。其实这个是用户的需求...

说完这些再来看看数据采集的弊端：

1）内容重复。

如今互联网内容重复性太高了，试试在搜索引擎上搜索一下内容的重复性实在是太高了。难怪这么多人痛恨数据采集。
2）无法保护版权。

比较有版权意识的站长还能保留个做者和出处，但是大部分站长在转载文章的时候连个原作者都不留，难怪招人BS.
3）搜索引擎。

搜索引擎总是希望为用户提供更多，质量更好的内容，如果每次搜索出来一长串同样的内容，岂不失败。故此搜索引擎也在不断的提供相关技术尽量减少相同内容网页的收录情况。如果某个网站被搜索引擎视为没有原创内容的网站，那这个网站基本上就等于判刑了。
4）网页凌乱。

大量的垃圾网站只是在不停的采集别人的网站内容，目的就是提高搜索引擎的收录量，依靠搜索引擎收录的内容和关键字的查询为网站带来流量。其网页凌乱广告乱飞。是在不敢恭维。