数据挖掘、检索、自然语言处理
来源:互联网 发布:痴迷网络辅导记录表 编辑:程序博客网 时间:2024/05/16 05:31
为什么要把这三个关键词写在一起呢?
对于文本挖掘,第一步:在理解业务的基础上进行分词,这就涉及到nlp相关的知识了,目前我接触到中文分词比较好用的就是结巴中分分词,可能是我用python多一些,而结巴在python中安装和使用很方便的。第二步:提取关键词。那么为什么要提取关键词?,我们练习做垃圾邮件分类的时候,大部分没有提取关键词,直接使用贝叶斯公式处理,效果还可以的。但是当我们的文本信息特别多的时候,直接使用贝叶斯计算的时候计算代价太高了。那么如何提取关键词呢?简单的方法是使用TF-IDF模型(当然这种方法有个缺点,没有考虑词的顺序)。第三步:用第二步提取的关键词构建词典,可以使用贝叶斯方法判断或者有监督机器学习的方法进行训练、预测。
检索的过程:1.存储网页信息(使用倒排索引存储信息)。2.计算网页的排名(比如使用pagerank)。3.检索词分割(分词,需要npl相关的知识)。4.检索词搜索,得到关键词和网页的相关性,返回检索结果(根据pagerank的排名和关键词与网页相关度的乘积)
当然检索过程要考虑用户的点击数据,根据用户的的偏好做成个性化的搜索引擎(又让我想到了个性化推荐)
检索的过程可以给数据挖掘提供思路,尤其当数据挖掘过程中找不到思路的时候。
参考资料:《数学之美》吴军博士 第二版 第9章 图论和网络爬虫 第10章 PageRank(延伸阅读:amn表示第m个网页指向n个网页链接的概率或者权重) 第11章 如何确定网页和查询的相关度 第14章 余弦定理和新闻的分类 第15章 矩阵运算和文本处理中的两个分类问题(1.文本和词汇的矩阵:矩阵A是M*N,这里的M应该是词个数,N是文章篇数)
- 数据挖掘、检索、自然语言处理
- 数据挖掘、自然语言处理
- 数据挖掘、机器学习、自然语言处理
- 数据挖掘,机器学习,自然语言处理,人工智能??????
- 人工智能、机器学习、模式识别、数据挖掘、自然语言处理
- 自然语言处理和数据挖掘项目中的一些技术体会
- 专访翟周伟图书作者自然语言处理数据挖掘Hadoop
- 关于python,数据挖掘,自然语言处理的一些学习资源
- Java开发、网络爬虫、自然语言处理、数据挖掘简介
- Java开发、网络爬虫、自然语言处理、数据挖掘简介
- 数据挖掘,机器学习,自然语言处理这三者是什么关系?
- 自然语言处理与文本检索
- 文本挖掘和自然语言处理
- 全文检索数据挖掘
- 如何检索自然语言处理领域相关论文
- 360搜索实习生(自然语言处理/机器学习/数据挖掘工程师)在线笔试知识点总结
- 2015百度机器学习/数据挖掘工程师+自然语言处理工程师笔试题目
- 致自己-面试总结(机器学习、数据挖掘、自然语言处理、==)
- 面向对象基础概念
- 前端框架vue.js系列(3):样式语法
- 小学生学嵌入式:)文件挂载
- Java-增强for循环(学习笔记)
- Android 静默安装和智能安装的实现方法
- 数据挖掘、检索、自然语言处理
- BloomFilter——大规模数据处理利器
- Java 8 新特性学习笔记
- zfb报错
- 清除浮动的7种方法图解
- 第三周项目2 建设 顺序表 算法库
- Java ArrayList 踩坑记录
- [设计模式]面向对象设计原则之里氏替换原则
- mips平台报错:报错信息:CPU 0 Unable to handle kernel paging request at virtual address 00000000, epc == 802bc