Eclipse中使用mallet主题建模初窥

来源:互联网 发布:淘宝 摄魂猎手vn 编辑:程序博客网 时间:2024/05/02 01:04

在看topic model和LDA的相关知识。 想要找个主题建模的工具使用一下。java环境下找到了mallet,版本是2.0.7。   跳过了官方文档想在网上找一些教程和使用心得,发现几乎都是一个版本的讲解,都是配置和命令行的操作使用  ,没有提到在具体的java项目中如何去使用mallet工具。  于是自己摸索着看了一下,记录下自己初次使用的一些心得。

在官网下载好mallet的项目文件之后,解压。得到的mallet项目不能直接import,在Eclipse中新建一个项目,把mallet目录下的内容全部复制过去即可。由于想使用主题建模相关的功能。打开example包下的TopicModel.java既是一个使用的样例。



该类主要包括两部分。  前一部分训练出model,后一部分用该model找到test文本的主题。   


instance作为数据的对象,我把args[]读入改为了从指定地址的文件读入。  这里的训练数据可以是一个文件,亦可以令fileReader读入多个文件。 同时生成instance时的pipeList对象实现了停用词过滤,大小写归一等操作,队训练数据进行了预处理。  numTopics指定了topic的个数,model读入训练数据并调用API完成训练。


测试部分大同小异,也是要指定好测试的instance得到在model的各个topic上的值即可。

0 0
原创粉丝点击