长文本如何兼顾效率情况下过滤垃圾信息
来源:互联网 发布:nginx 转发效率 编辑:程序博客网 时间:2024/06/05 04:52
方法1:基于字符串精确匹配,一般使用Aho Corasick自动机结合DoubleArrayTrie来获得相关词,然后基于词的基础上,理解词与词的关系,理解语义(可以使基于规则的或者是统计的),从而进行判断
优点:精确匹配,容易处理变形
缺点:匹配词多,语义完全依赖于语义规则
方法2:分词后,做文本的IF-IDF,基于权重比较高的词进行语义判断
优点:最终判断的词少,语义判断性能好,但是语义比较模糊,不好处理变形词
缺点:基础的IF-IDF数据需要大量的训练
其他参考网址:
TF-IDF与余弦相似性的应用(一):自动提取关键词 http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
TF-IDF与余弦相似性的应用(二):找出相似文章 http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
1 0
- 长文本如何兼顾效率情况下过滤垃圾信息
- 安全与效率如何兼顾?互联网行业挑战重重
- 如何打击垃圾信息.
- 搜索引擎检索效率与垃圾信息
- 使用sed过滤提取文本中的信息
- 搜索引擎检索效率与垃圾信息(张炜)
- 读取CO03长文本中的订单定制信息
- ubuntu下如何清理垃圾
- java过滤html标签获取纯文本信息
- 文本过滤
- 文本过滤
- 如何查看长文本的标识和对象(读长文本)。
- 在没有打开进程统计磁盘读写统计信息情况下如何监控磁盘读写
- datatable 在分页的情况下 如何实现重新加载当前页信息
- 兼顾效率,iBatis一些非见用法(10条)
- 兼顾效率,iBatis一些非见用法(10条)
- 如何兼顾学习ARM与FPGA
- mysql url较长情况下的索引优化
- Photoshop操作说明——初学篇
- font-face使用阿里图标库
- 小王的尴尬日常(一)--使用RSA公钥证书解密
- windows下运行webLogic startWeblogic.bat等命令报错
- 【jzoj3861】【JSOI2014】【支线剧情2 】【树形动态规划】
- 长文本如何兼顾效率情况下过滤垃圾信息
- Qt 之 安装及调试源码
- 项目周期管理工具maven常用命令
- 解决Jpush大批量循环推送失败
- C++指针与引用的区别
- 删除项目中的CocoaPods
- android分区挂载fstab
- 单例模式的七种写法
- 微信小程序app.json如何配置