抽取百度百科的感慨

来源:互联网 发布:淘宝在哪里找删掉 编辑:程序博客网 时间:2024/05/22 04:54

我最大的失误就在于,看得是维基百科的结构,分析的维基百科的体系,而使用百度百科来作为语料。

 

最近回过头来看了以前的分析,发现自己犯了很大的错误。维基百科当之无愧是世界上最好的真正的知识体系。注意这里我想说的是“体系”,也就是他的组织相比来说是很完善的。其他的不用说,专看他的分类目录的体系就可以看出来了,层次结构的分类体系。而百度百科让我很蛋疼的是,它没有分类体系,而且整个都谈不上“体系”。

 

他的分类是平面的,我不禁想说,这有什么作用呢。而且他的分类不是统一的,每个人都可以自由的添加类别,所以你会发现很多神奇的类别,而且这些类别下面通常只有一篇文章。然后是同一个概念可能在多篇文章中出现,也就是传说中的重复的词条问题。维基百科对于一词多义以及多词一意的问题处理得非常的漂亮。

 

百度百科中的特色“开放分类”和“相关词条”应该是比较好的一个亮点,不过最近通过我的抽取,发现里面得垃圾太多,很多都谈不上相关性就往上写,而且还是优质词条。不得不说,很多东西一点变成功利性的,就会很垃圾了。

 

最近发现QQ也开始做百科,这个我必须的佩服。QQ要是考四六级,不早就被打死了。希望copy的有点新意,没有新意也要copy出一个“体系”来,不要一量多就牛逼,从一开始就要做好整个的构架工作。

 

 

原创粉丝点击