自然语言处理——Pattern（pattern.vector）

来源：互联网发布：执信软件编辑：程序博客网时间：2024/05/29 09:05

1 Classification

　　分类是用来预测未标记文件的标签。具体的说，分类是一种监督的机器学习方法，使用标记文件（例如，带类型的文档对象）作为训练样本来统计预测新文件的标签（类别），该方法使用一种距离矩阵（如余弦相似性）来度量新样本和训练样本之间的相似性。一个文档可以看做一个文本的词袋，该词袋中的类型是（单词，计数），其中单词之间是无须的。文档矩阵是词（特征）与词权重（绝对和相对词计数、tf-idf等）之间的映射。词权重表示其与文本的相关性。因此，我们可以通过测量两个文档是否有相关的共同词来比较他们之间的相似性。给定一个未标记的文件，分类器从训练集中产生与它最相似的文件标签，这意味着一个拥有更多的特征以及更少的标签的训练集能够提供更好的性能。

0 0