文本挖掘，我们想要得到什么

来源：互联网发布：淘宝网的电商模式编辑：程序博客网时间：2024/06/06 12:01

文本挖掘有较为固定的处理流程，数据获取、正文提取、分词、去停用词等等。但当我们跑完上述预处理流程，获得了可供挖掘的数据后，我们提出问题：这些数据能干什么？能提取什么知识什么模式？以我的某个论文为例，我利用爬虫获取了食品安全相关的网页，构成语料库，有效的样本量大概有几万个。然后呢，我做了食品安全事件报道的地区、时间、和类型的统计，跑了关联规挖掘，利用主题模型方法进行了隐含变量的提取。结果看上去很丰富，有图有表，有数据有算法，可我想说的是，挖掘不应当是先设置目的，再选择方法吗？怎么成了各种算法跑一跑，看看什么结果可用的过程？

当你面对一堆沙子，你会猜测：沙子里有金子，然后你去找这个金子，这是淘金，这是挖掘；当你连目的都没弄清楚，希望通过东一榔头西一棒槌的方法研究这堆沙子，最后的结论大概就是这届沙子不行吧。

回到问题，最初的一步应是解析出问题，比如现有算法的不足、模型描述不够细致。我希望通过改进主题模型，让模型更好的表示现有数据。

针对主题模型

1、我们获取到了食品安全相关的网页，宏观上讲是隶属于相同主题的，但细分下来也可分为食品、添加剂、健康、检测、化学、政策等多个facet。那每个文本的主题应当是它们的混合，这符合多项式分布。（但也可以这样理解：文本的关键特征应是涉及的食品，因此整个文本集应当是不同类型的食品安全文本的混合，每次）

第一层，是不是食品安全事件？

第二层，是哪种事件？

2、原始的方法完全自动（除了k值），但在细分的任务中完全的自动不切实际，可人工干预，通过添加先验知识（语义网、本体）的方法，可令模型理解哪些概念间是有强相关性的（如牛奶、酸奶，色素、苏丹红，细菌、腹泻），从而更加准确的打标签？

3、原始数据是有偏斜的。以百度搜索“苏丹红辣椒”返回的数据为例，大部分网页是“无效”的，是不存在隐含的标记信息的

0 0