基本思路 project1

来源：互联网发布：mes系统用java开发吗编辑：程序博客网时间：2024/05/18 13:45

微博数据集，新词发现，倾向性判

现在看过去，就是这样一个问题：

给你一个微博语料集（其实就是两个 excel文件，或者是.txt文件）就是文件

1：打开，读入文件：你使用什么编程语言，就调用相应函数打开，读入文件即可。

2：观察数据：用emeditor 打开.csv文件，看到所给的数据集有多少行，多少列。。。好好观察数据（PS：.csv文件有个特点，数据库中的每条记录，记录在单独一行。这个特性

很好啊，方便进行数据处理。如;在代码中一行行的读入文件，等价于，一行行的读入记录数据。很棒）

3：进行预处理。（这个，我copy网上大神的一段代码）：所谓预处理，就是利用正则表达式，过滤掉数据集中无用的东西（即，如：无用的列）。

4：分词：选择一个分词器，读入文件，进行分词，并把分词结果输出到另一个文件中（代码：掉cut函数，文件的读入，与写出操作）

5：新词发现：新词发现的简单思路：在python 中，建立一个字典 dict{},把dict.txt读入字典中。建立一个测试文本test.txt ，进行分词，把分词的每一个词到 dict{} 中查找，

若找到，pass;若没找到，即为新词，加入字典 new_word{}

6:倾向性判别：看了好多论文，设计到训练分类器，暂时不会。所以，用纯代码，实现一个简单的，粗糙的不能再粗糙的思路->

把每一行不是新词的情感词按行存储起来，并记录其极性；然后，这一行所出现的新词的极性，就是改行所有不是新词的情感词的极性的累加和

（代码：设置了4个python 字典，并且使用到了字典嵌套。）

目前为止，效果不好。

0 0