数据挖掘、检索、自然语言处理

来源:互联网 发布:痴迷网络辅导记录表 编辑:程序博客网 时间:2024/05/16 05:31

为什么要把这三个关键词写在一起呢?

对于文本挖掘,第一步:在理解业务的基础上进行分词,这就涉及到nlp相关的知识了,目前我接触到中文分词比较好用的就是结巴中分分词,可能是我用python多一些,而结巴在python中安装和使用很方便的。第二步:提取关键词。那么为什么要提取关键词?,我们练习做垃圾邮件分类的时候,大部分没有提取关键词,直接使用贝叶斯公式处理,效果还可以的。但是当我们的文本信息特别多的时候,直接使用贝叶斯计算的时候计算代价太高了。那么如何提取关键词呢?简单的方法是使用TF-IDF模型(当然这种方法有个缺点,没有考虑词的顺序)。第三步:用第二步提取的关键词构建词典,可以使用贝叶斯方法判断或者有监督机器学习的方法进行训练、预测。

检索的过程:1.存储网页信息(使用倒排索引存储信息)。2.计算网页的排名(比如使用pagerank)。3.检索词分割(分词,需要npl相关的知识)。4.检索词搜索,得到关键词和网页的相关性,返回检索结果(根据pagerank的排名和关键词与网页相关度的乘积)

当然检索过程要考虑用户的点击数据,根据用户的的偏好做成个性化的搜索引擎(又让我想到了个性化推荐)


检索的过程可以给数据挖掘提供思路,尤其当数据挖掘过程中找不到思路的时候


参考资料:《数学之美》吴军博士  第二版   第9章  图论和网络爬虫     第10章 PageRank(延伸阅读:amn表示第m个网页指向n个网页链接的概率或者权重)        第11章 如何确定网页和查询的相关度     第14章 余弦定理和新闻的分类    第15章 矩阵运算和文本处理中的两个分类问题(1.文本和词汇的矩阵:矩阵A是M*N,这里的M应该是词个数,N是文章篇数)

阅读全文
0 0