text mining and analysis 学习笔记week1

来源：互联网发布：如何做好客服数据分析编辑：程序博客网时间：2024/06/14 11:36

一、一些现实存在的事物在经过人的观察思考后通过语言表达就形成了文本数据，通过对文本的挖掘可以得到以下四个方面的内容： 1. 挖掘文本中关于语言的东西，一个文本它所运用的语言可能是多种混合的。
2. 挖掘文本中的内容
3. 得到观察者的思想或观点等
4. 推断预测现实生活里的变量
此外，文本挖掘并不局限于文本数据，一些相关的数值数据也能给该文本挖掘提供一些有帮助的背景信息。

二、本课程所涵盖的内容包括：NLP简述及如何展示文本数据，单词联想的挖掘分析，话题挖掘分析，观点情感的挖掘分析以及基于文本的对现实生活里相关可变因素的预测

三、自然语言处理中的一些概念介绍
这里写图片描述
lexical analysis: 词法分析，又称词性标注，即标注为名词动词介词等。
syntactic analysis:句法分析，指句子中的主谓宾结构。
semantic analysis:语义分析，用计算机的语言来表示这个句子要表达的意思，由图可知再加上scare这个条件的话，可推断出boy害怕被狗追。
pragmatic analysis：说话动作分析或实务分析，由上面的语义分析可让人去提醒狗主人带回他的狗

四、NLP难点
我们为了高效表达经常会在不同语境中使用同一个词来表达意思，并没有作过多解释。但这种模棱两可的词义让计算机解析起来变得困难。
1. 单词上的歧义（ambiguity): ambiguous POS （词性模棱两可，比如动词or名词）；ambiguous sense（词义模棱两可）
2. 句法歧义：不同的语境下，同一个句子表达的意思可能不一样。介词短语歧义（PP attachment，英语语法中的问题）

五、文本表示
这里写图片描述
字母字符串→词序划分→词性标注→句法结构分析→实体提取及实体间关系分析→逻辑推理→言语行为分析（如分析出这个说话者说出这话的目的或者初衷）
随着分析方法的深入，犯错的可能性会大很多，同时也可能会更接近知识表示层面，即更容易提取知识。所以文本挖掘要注重深入分析方法与浅显分析方法的结合，权衡挖掘深度与犯错率。

这里写图片描述
1. 字符串编程应用举例：文本压缩；
2. 词序划分的功能分析：单词联想，话题分析，情感分析；应用举例：thesaurus discovery(一个用来查同义词反义词的词典), 话题观点的相关应用（比如科学家想知道当下最重要的研究话题是什么，企业想知道消费者的购物喜好等）
几乎所有文本挖掘都需要这个层面的分析,general and robust, 不怎么需要人工加工，简单却经常情况下能取得很好的效果。
3. 句法结构的功能分析：句法图分析；应用举例：如果希望通过不同的作者将文章分类，那你要知道哪个作者实际上有写这文章，这时候就需要句法结构分析。
4. 实体关系的功能分析：知识图谱，信息网络；应用举例：将零散的数据整合汇成图谱，方便决策及预测。
5. 逻辑推断的功能分析：分散的综合知识分析，逻辑推理；应用举例：生物学家从大量资料中提取了相关知识进行某方面的研究，而计算机能通过对这些综合知识的分析给出相应的假说推断。

六、单词联想
1. 两种基本方式的概念：
联想关系（paradigmatic）指有着某些共同点的符号在人们记忆里构成的聚合。(cat dog)
句段关系（syntagmatic）是一种组合关系，指在既定的序列中受规则制约的符号组合。(car drive)
2. 寻址词义联想关系（paradigmatic）的方法 :计算语境的相似度方法：EOWC
这里写图片描述
假如d1表示cat,d2表示dog,以此计算d1和d2的语境相似度。x1,x2,…,xn分别表示句子中单词正则化后出现的概率。

其中每一个词的权重都等于其概率，比如w1的概率就是从d1的词中随机选一个它就是w1的概率，所以正则化后的xi为这个词在句子中出现的次数除以句子的词总数。
该方法存在的问题：1. 在匹配常有词上比匹配特有词效果要好，因为在点积中一个项在两个句子中占有比重都大的话，会对最终结果有很大影响，使得最终相似度的值很高，但结果并不一定是我们想要的。 2. 对待每一个词的概率是平等的（比如the没有什么意义，但它占的比重可能跟关键词mean一样)

七、
这里写图片描述

这里写图片描述
IDF反文档频率(Inverse Document Frequency)是指包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

这里写图片描述
词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。

参数b是调整文档长度对相关性影响的大小。b越大，文档长度的对相关性得分的影响越大，反之越小。而文档的相对长度越长，K值将越大，则相关性得分会越小。
TF-IDF是一种用于资讯检索的常用加权技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

阅读全文

0 0