文本挖掘与分析课程笔记_Week1
来源:互联网 发布:外汇交易员知乎 编辑:程序博客网 时间:2024/04/30 21:43
前言
概念区分:
- 文本检索与搜索引擎:大量数据→少量有用数据
- 文本挖掘:少量有用数据→提炼出有用知识并应用
ps:越深层次的数据挖掘往往鲁棒性不够,准确率不够高,同时依赖人工的介入,但更能获取高质量的分析结果。
第一周笔记
从某种意义上来讲,人类可以比做一个观察器,但这个观察器输出的是文本,我们可以通过几个方面对文本进行分析:
- 对文本结构进行分析,可以获得与语言有关的知识(语法等)
- 对观察者的文本进行分析,可以获得与观察者有关的知识(个人特点)
- 对文本信息的分析,可以获得与实体有关的知识
NLP(自然语言处理)对计算机来说是困难的:
- 人类进行语言交流是基于一些共有的基础知识,而计算机缺少这方面的知识
- 词和句子的多义和歧义,计算机难以识别这种模糊性
文本挖掘的各层次及相应可用的分析方法,应用如下:
基础词类关系:聚合(paradigmatic)和组合(syntagmatic)
- 聚合指同类词,其特点是相似度高,或者说相互可替代性高
- 组合是词的联合,配对,即一起出现的概率大
计算词的相似度:VSM,相似度函数(将抽象的相似性问题转化为对高维向量距离的求解)
- x1,x2,…,xn分别表示文档中单词正则化后出现的概率
EOWC(共同词期望),这里的点积用于计算文档中,两个随意选择的词完全一样的概率(可用于测量文档相似度):
EOWC的一些缺点及对应解决方法:
- TF用于一个文档中
- IDF用于多个文档(文库)
- TF-IDF是一种用于资讯检索的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降
TF(词频,某个词在该文件中出现的次数)及BM25(出现越频繁的权重越低,但不会超过x=y)转换的具体形式:
IDF(反文档频率)
- M是总文件数
- k是包含该词的文件数
- IDF越大,则说明该词具有很好的类别区分能力
用BM25来挖掘组合关系:
- 参数b用于调整文档长度对相关性影响,b越大,则文档长度的对相关性得分的影响越大
阅读全文
0 0
- 文本挖掘与分析课程笔记_Week1
- 文本分析挖掘笔记
- python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part1
- python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part2
- 中文文本挖掘课程笔记之jieba分词(1)
- 文本挖掘分析技术
- 文本挖掘技术笔记
- 文本挖掘笔记
- 用R进行文本挖掘与分析:分词、画词云【2】
- 笔记《Python数据分析与实战挖掘》
- 用R做中文文本分析--用R进行文本挖掘与分析:分词、画词云
- 文本挖掘 入门笔记1
- 课堂笔记-文本挖掘-CM1
- 互联网数据分析和挖掘公开课程
- 加州理工学院公开课:机器学习与数据挖掘课程笔记(一)学习问题
- 机器学习与数据挖掘课程
- 情感分析与观点挖掘总结笔记(一)
- 《python数据分析与挖掘实战》笔记-3.1代码问题
- Eclipse项目移植到Android studio上踩的坑。。。。。。
- 关于数学问题的程序解决,找出推导式及西大OJ_14解答
- 《getting started with p5.js》(中文版) 第一章 您好:了解p5.js
- JavaSE--------基础语法(一续)
- HTML-如何正确给table加边框
- 文本挖掘与分析课程笔记_Week1
- 实习项目:superviser
- python功能二维表合并,一维表内嵌元祖合并以及取交集,并集,差集
- 基于TextRank API写的测试
- json list map 对象 转换成tostring Json的数据格式
- 秒杀多线程第六篇 经典线程同步 事件Event
- VC下Debug和Release区别
- reduce函数
- ImageLoder封装工具类..