长文本如何兼顾效率情况下过滤垃圾信息

来源:互联网 发布:nginx 转发效率 编辑:程序博客网 时间:2024/06/05 04:52

方法1:基于字符串精确匹配,一般使用Aho Corasick自动机结合DoubleArrayTrie来获得相关词,然后基于词的基础上,理解词与词的关系,理解语义(可以使基于规则的或者是统计的),从而进行判断

优点:精确匹配,容易处理变形

缺点:匹配词多,语义完全依赖于语义规则

方法2:分词后,做文本的IF-IDF,基于权重比较高的词进行语义判断

优点:最终判断的词少,语义判断性能好,但是语义比较模糊,不好处理变形词

缺点:基础的IF-IDF数据需要大量的训练


其他参考网址:

TF-IDF与余弦相似性的应用(一):自动提取关键词    http://www.ruanyifeng.com/blog/2013/03/tf-idf.html 

TF-IDF与余弦相似性的应用(二):找出相似文章 http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

1 0