第六章 文本分类
来源:互联网 发布:黑马java 2016 编辑:程序博客网 时间:2024/05/24 05:29
return {'last_letter':word[-1]}
定义一个性别特征,通过尾字母进行判断
names = ([(name, 'male') for name in names.words('male.txt')] +
[(name, 'female') for name in names.words('female.txt')])
用男名和女名生成names列表
featuresets = [(gender_features(n), g) for (n,g) in names]
将names根据尾字母生成特征集
train_set, test_set = featuresets[500:], featuresets[:500]
生成训练集和测试集
classifier = nltk.NaiveBayesClassifier.train(train_set)
使用朴素贝叶斯分类器
classifier.classify(gender_features('huangcongying‘))
用分类器进行测试
nltk.classify.accuracy(classifier, test_set)
用测试集生成准确率
classifier.show_most_informative_features(5)
检查分类器,展示最有用的5个特征
train_names = names[1500:]
devtest_names = names[500:1500]
test_names = names[:500]
训练集用于训练模型,开发测试集用于进行错误分析,测试集用于系统的最终评估。
train_set = [(gender_features(n), g) for (n,g) in train_names]
devtest_set = [(gender_features(n), g) for (n,g) in devtest_names]
test_set = [(gender_features(n), g) for (n,g) in test_names]
classifier = nltk.NaiveBayesClassifier.train(train_set)
nltk.classify.accuracy(classifier, devtest_set)
设立训练集、开发测试集和测试集的特征集合,并计算准准确率
- 第六章 文本分类
- 第六章 文本属性
- 第六章 第一节 文本控件
- 第六章:如何对内容进行分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- 文本分类
- Dynamic Programming实战一:Longest Increasing Subsequence算法分析及C代码实现
- 解析XML文件(字符串)的两种方法-----SAXReader 与 DocumentHelper
- 模拟赛心得体会&COCI2014/2015CONTEST #1
- 百度地图使用问题
- TCP的状态和三次握手
- 第六章 文本分类
- 用SAXReader解析xml文档
- Centos6.5安装配置keepalived
- 中级篇——Bellmen算法求最短路径
- kd-tree的实现
- 网页计算器
- github安装不了问题
- PHP学习-----Android客户端传回图片的base64位码php保存到服务器和文件夹里面
- TCP协议中的三次握手和四次挥手(图解)