文本挖掘与分析课程笔记_Week1

来源：互联网发布：外汇交易员知乎编辑：程序博客网时间：2024/04/30 21:43

前言

概念区分：

ps：越深层次的数据挖掘往往鲁棒性不够，准确率不够高，同时依赖人工的介入，但更能获取高质量的分析结果。

从某种意义上来讲，人类可以比做一个观察器，但这个观察器输出的是文本，我们可以通过几个方面对文本进行分析：

这里写图片描述

NLP（自然语言处理）对计算机来说是困难的：

Markdown

文本挖掘的各层次及相应可用的分析方法，应用如下：

Markdown

基础词类关系：聚合（paradigmatic）和组合（syntagmatic）

Markdown

计算词的相似度：VSM，相似度函数（将抽象的相似性问题转化为对高维向量距离的求解）

Markdown

EOWC（共同词期望），这里的点积用于计算文档中，两个随意选择的词完全一样的概率（可用于测量文档相似度）：

Markdown

EOWC的一些缺点及对应解决方法：

TF用于一个文档中
IDF用于多个文档（文库）
TF-IDF是一种用于资讯检索的常用加权技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降

Markdown

TF（词频，某个词在该文件中出现的次数）及BM25（出现越频繁的权重越低，但不会超过x=y）转换的具体形式：

Markdown

IDF（反文档频率）

Markdown

用BM25来挖掘组合关系：

Markdown

阅读全文

0 0