文本挖掘--将分词之后的文档转化为结构化的数据

来源:互联网 发布:google浏览器 for mac 编辑:程序博客网 时间:2024/05/01 06:49

将分词后的文本转化为数据结构化

1、使用关系型数据库

 对文本数据的结构化都是最具挑战的,大量的文本需要进行词频的统计、特征提取和降维。其实难点的根本是我们在做词频统计时,需要对所有的文本文件进行遍历,建立一个包含所有词的字典,如果文件集非常庞大、词比较多,这个词典就会很大,而且在第二次遍历文件进行词频统计的过程中,内存、寻址、计算的开销都是十分巨大的。 


它不需要很复杂的安装和配置,只要新建一个.txt 的文件,把文件后缀改为.db 就可以了,这个文件就可以作为SQLite 数据库的文件,而且所有的数据库管理文件都在里面

Java 有与 SQLite 连接的 ODBC。首先遍历所有文档,用 Map 对象建立一个包含所有词的字典,在 SQLite 中建立一个有这些词做字段的表。然后第二次遍历,对文本中的词频用 Map 对象进行统计,然后插入到数据库中。这样就从非结构化的文本转化为结构化的数据。
 

0 0
原创粉丝点击