长文本如何兼顾效率情况下过滤垃圾信息

来源：互联网发布：nginx 转发效率编辑：程序博客网时间：2024/06/05 04:52

方法1：基于字符串精确匹配，一般使用Aho Corasick自动机结合DoubleArrayTrie来获得相关词，然后基于词的基础上，理解词与词的关系，理解语义（可以使基于规则的或者是统计的），从而进行判断

优点：精确匹配，容易处理变形

缺点：匹配词多，语义完全依赖于语义规则

方法2：分词后，做文本的IF-IDF，基于权重比较高的词进行语义判断

优点：最终判断的词少，语义判断性能好，但是语义比较模糊，不好处理变形词

缺点：基础的IF-IDF数据需要大量的训练

其他参考网址：

TF-IDF与余弦相似性的应用（一）：自动提取关键词 http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

TF-IDF与余弦相似性的应用（二）：找出相似文章 http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

1 0