常用的中文停用词表

来源:互联网 发布:自学java要多长时间 编辑:程序博客网 时间:2024/04/29 16:24
[java] view plaincopyprint?
  1. public String[] cn_stopword = { "的""了""在""是""我""有""和""就",  
  2.         "不""人""都""一""一个""上""也""很""到""说""要""去""你",  
  3.         "会""着""没有""看""好""自己""这" };  
 

 

 

首先,我们看下什么是停止词。停止词,是由英文单词:stop word翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,如果搜索引擎要将这些词都索引的话,那么几乎每个网站都会被索引,也就是说工作量巨大。可以毫不夸张的说句,只要是个英文网站都会用到a或者是the。那么这些英文的词跟我们中文有什么关系呢?

 

在中文网站里面其实也存在大量的stop word,我们称它为停止词。比如,我们前面这句话,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高,几乎每个网页上都存在,所以搜索引擎开发人员都将这一类词语全部忽略掉。如果我们的网站上存在大量这样的词语,那么相当于浪费了很多资源。原本可以添加一个关键词,排名就可以上升一名的,为什么不留着添加为关键词呢?停止词对SEO的意义不是越多越好,而是尽量的减少为宜。

 

其次,我们再看看禁用搜索词。在国外可能政府对网络的监管没有我国的严格,所以他们都是将禁用搜索词和poison word混为一谈了。至于poison word是什么意思,大家可以去百度或者谷歌一下,该词翻译成中文就成了禁用搜索词。那么我们怎样来区分这两类词呢?禁用搜索词在国内其实就是政府规定禁止使用或者说是禁止出现的关键词,而poison word(以下我们简写为PW)就是一些粗俗或者是骂人的词语,这些词语搜索引擎是不喜欢看到的。

    搜索引擎针对PW和禁用搜索词(forbidden search terms简写为FST)是怎样对待的呢,在国内如果出现PW那么搜索引擎会适当的将该网站的权重下调的,表现的结果就是某些关键词的排名下降了;而 FST搜索引擎是直接不显示该网页,或者在你搜索到该网页后会显示该页面存在非法关键词,搜索引擎对这些词的惩罚比较严重,尤其是百度,在出现某品牌牛奶事件以后就开始严厉打击这些现象,其中也从这个方面打击了不少网站。

原创粉丝点击