数据挖掘、检索、自然语言处理

来源：互联网发布：痴迷网络辅导记录表编辑：程序博客网时间：2024/05/16 05:31

为什么要把这三个关键词写在一起呢？

对于文本挖掘，第一步：在理解业务的基础上进行分词，这就涉及到nlp相关的知识了，目前我接触到中文分词比较好用的就是结巴中分分词，可能是我用python多一些，而结巴在python中安装和使用很方便的。第二步：提取关键词。那么为什么要提取关键词？，我们练习做垃圾邮件分类的时候，大部分没有提取关键词，直接使用贝叶斯公式处理，效果还可以的。但是当我们的文本信息特别多的时候，直接使用贝叶斯计算的时候计算代价太高了。那么如何提取关键词呢？简单的方法是使用TF-IDF模型（当然这种方法有个缺点，没有考虑词的顺序）。第三步：用第二步提取的关键词构建词典，可以使用贝叶斯方法判断或者有监督机器学习的方法进行训练、预测。

检索的过程：1.存储网页信息（使用倒排索引存储信息）。2.计算网页的排名(比如使用pagerank)。3.检索词分割（分词，需要npl相关的知识）。4.检索词搜索，得到关键词和网页的相关性，返回检索结果（根据pagerank的排名和关键词与网页相关度的乘积）

当然检索过程要考虑用户的点击数据，根据用户的的偏好做成个性化的搜索引擎（又让我想到了个性化推荐）

检索的过程可以给数据挖掘提供思路，尤其当数据挖掘过程中找不到思路的时候。

参考资料：《数学之美》吴军博士第二版第9章图论和网络爬虫第10章 PageRank（延伸阅读：amn表示第m个网页指向n个网页链接的概率或者权重）第11章如何确定网页和查询的相关度第14章余弦定理和新闻的分类第15章矩阵运算和文本处理中的两个分类问题（1.文本和词汇的矩阵：矩阵A是M*N，这里的M应该是词个数，N是文章篇数）

阅读全文

0 0