基本思路 project1

来源:互联网 发布:mes系统用java开发吗 编辑:程序博客网 时间:2024/05/18 13:45

微博数据集,新词发现,倾向性判

现在看过去,就是这样一个问题:

给你一个微博语料集(其实就是两个 excel文件,或者是.txt文件)就是文件

1:打开,读入文件:你使用什么编程语言,就调用相应函数打开,读入文件即可。

2:观察数据:用emeditor 打开.csv文件,看到 所给的数据集有多少行,多少列。。。好好观察数据(PS:.csv文件有个特点,数据库中的每条记录,记录在单独一行。这个特性

    很好啊,方便进行数据处理。如;在代码中一行行的读入文件,等价于,一行行的读入记录数据。很棒)

3:进行预处理。(这个,我copy网上大神的一段代码):所谓预处理,就是利用正则表达式,过滤掉数据集中无用的东西(即,如:无用的列)。


4:分词:选择一个 分词器,读入文件,进行分词,并把分词结果输出到另一个文件中(代码:掉cut函数,文件的读入,与写出操作)


5:新词发现:新词发现的简单思路:在python 中,建立一个字典 dict{},把dict.txt读入字典中。 建立一个测试文本test.txt ,进行分词,把分词的每一个词到 dict{} 中查找,

      若找到,pass;若没找到,即为新词,加入字典 new_word{}



6:倾向性判别:看了好多论文,设计到 训练分类器,暂时不会。所以,用纯代码,实现一个简单的,粗糙的不能再粗糙的思路->

                            把每一行不是新词的情感词按行存储起来,并记录其极性;然后,这一行所出现的 新词的极性,就是 改行所有不是新词的情感词的极性的累加和

                               (代码:设置了4个python 字典,并且使用到了 字典嵌套。)

                           目前为止,效果不好。

0 0