常用的中文停用词表
来源:互联网 发布:自学java要多长时间 编辑:程序博客网 时间:2024/04/29 16:24
- public String[] cn_stopword = { "的", "了", "在", "是", "我", "有", "和", "就",
- "不", "人", "都", "一", "一个", "上", "也", "很", "到", "说", "要", "去", "你",
- "会", "着", "没有", "看", "好", "自己", "这" };
首先,我们看下什么是停止词。停止词,是由英文单词:stop word翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,如果搜索引擎要将这些词都索引的话,那么几乎每个网站都会被索引,也就是说工作量巨大。可以毫不夸张的说句,只要是个英文网站都会用到a或者是the。那么这些英文的词跟我们中文有什么关系呢?
在中文网站里面其实也存在大量的stop word,我们称它为停止词。比如,我们前面这句话,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高,几乎每个网页上都存在,所以搜索引擎开发人员都将这一类词语全部忽略掉。如果我们的网站上存在大量这样的词语,那么相当于浪费了很多资源。原本可以添加一个关键词,排名就可以上升一名的,为什么不留着添加为关键词呢?停止词对SEO的意义不是越多越好,而是尽量的减少为宜。
其次,我们再看看禁用搜索词。在国外可能政府对网络的监管没有我国的严格,所以他们都是将禁用搜索词和poison word混为一谈了。至于poison word是什么意思,大家可以去百度或者谷歌一下,该词翻译成中文就成了禁用搜索词。那么我们怎样来区分这两类词呢?禁用搜索词在国内其实就是政府规定禁止使用或者说是禁止出现的关键词,而poison word(以下我们简写为PW)就是一些粗俗或者是骂人的词语,这些词语搜索引擎是不喜欢看到的。
搜索引擎针对PW和禁用搜索词(forbidden search terms简写为FST)是怎样对待的呢,在国内如果出现PW那么搜索引擎会适当的将该网站的权重下调的,表现的结果就是某些关键词的排名下降了;而 FST搜索引擎是直接不显示该网页,或者在你搜索到该网页后会显示该页面存在非法关键词,搜索引擎对这些词的惩罚比较严重,尤其是百度,在出现某品牌牛奶事件以后就开始严厉打击这些现象,其中也从这个方面打击了不少网站。
- 常用的中文停用词表
- 常见中文停用词表整理
- Ansj添加停用词表
- Stop_Word 中英文停用词表
- FAQ停用词表
- Lucene 测试 自定义停用词表 StopAnalyzer
- python结巴分词、jieba加载停用词表
- 文本分析 停用词表 停用词过滤
- 使用jieba维护自定义词、停用词表
- 中文停用词词表
- 文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)
- 最全英文停用词表整理(891个)
- 最全中文停用词表整理(1893个)
- 最全英文停用词表整理(891个)
- 日语常用助数词表
- 多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序
- C#写中文基于词表的最大逆向匹配分词算法
- 基于正向最大化词表中文分词法。
- [iReport总结1]iReport生成PDF文件中时的中文日文字体问题
- xcode 4 制作静态库详解
- CronJob简介
- 18_2学习辅助软件
- PHP5+引进$GLOBALS延迟初始化的概念
- 常用的中文停用词表
- Oracle 获取当前年、月、日
- 响应式网页设计
- vc++操作mysql数据库的技巧(一)
- 嵌入式学习之路
- overload和override的区别详解
- 伟大的程序员是怎样炼成的?
- 2013年前端开发者如何提升自己
- Linux下如何捕获SIGSEGV 的发生位置