垃圾评论分类
来源:互联网 发布:火车票抢票用什么软件 编辑:程序博客网 时间:2024/05/16 08:35
一、数据特征准备
1选取汉语词典(包含常用词,姓名等) -> one hot 向量
2选取停用词词典 ->去除停用词的影响
3选取同义词词典 ->增加表达多词同意的能力
4选取比较长的固定搭配词典,比如成语,乐队名字等,增加分词正确率
通过以上词典将每一句评论转换成one hot 向量,作为训练数据与测试验证数据集
二、spark 训练
使用spark的朴素贝叶斯训练数据
import sparl.mllib.classification.NaiveBayesNBmodel = NaiveBayes.train(train_data)
三、在测试集上预测
result = NBmodel.predict(test_data)
四、评估模型
非垃圾识别精准率:
垃圾识别精准率:
因为要识别的是垃圾评论,所以设
postive:垃圾评论
negative:非垃圾评论
则:
TP :8300
FN:1700
FP:200
TN:34800
准确率:
召回率:
并且使用mllib.evalution.BinaryClassficationMetrics类,计算ROC面积AUC值共同评估模型。
五、模型参数调优
1、增加迭代次数
2、减少学习率,或者使用学习率衰减方法
3、加入正则化,如果模型可加
同样通过AUC值来判断参数优劣,使用交叉验证集来判断
0 0
- 垃圾评论分类
- 垃圾分类
- TensorFlow1: 评论分类
- TensorFlow2: 评论分类
- 评论进行分类
- 垃圾评论有助于SEO吗?
- 使用 Akismet 防止垃圾评论
- 开始研究反垃圾评论
- 垃圾分类-特别是有害垃圾
- 用户商品评论自动分类
- 垃圾分类 garbage sorting
- 垃圾收集算法分类
- 一起来了解垃圾分类
- Django 垃圾短信分类
- wordpress快速删除垃圾评论和关闭评论
- WordPress防范垃圾评论(无插件)
- 电影评论分类——朴素贝叶斯
- TensorFlow练习1: 对评论进行分类
- [leetcode] 368. Largest Divisible Subset
- Swift 必须是可选值的情况&不能是可选值的情况
- 分布式系统(四)——弱一致性模型
- iOS-Error:Cannot find protocol definition for 'TencentSessionDelegate'
- javascript实用Date工具
- 垃圾评论分类
- Linux-Ubuntu 启用root账户
- SELECT ... INTO OUTFILE 指定字符集
- spring+springmvc+mybatis
- hadoop 输出结果设为压缩格式
- 前端论坛学习笔记20160704
- 扩大Vmware虚拟机中Ubuntu系统磁盘空间
- JQuery笔记——关于Rebecca Murphey所著《jQuery基础》(jQuery Fundamentals)
- 安卓实战开发之把arr替换为library给eclipse使用(菜鸟学习)