基本思路 project1
来源:互联网 发布:mes系统用java开发吗 编辑:程序博客网 时间:2024/05/18 13:45
微博数据集,新词发现,倾向性判
现在看过去,就是这样一个问题:
给你一个微博语料集(其实就是两个 excel文件,或者是.txt文件)就是文件
1:打开,读入文件:你使用什么编程语言,就调用相应函数打开,读入文件即可。
2:观察数据:用emeditor 打开.csv文件,看到 所给的数据集有多少行,多少列。。。好好观察数据(PS:.csv文件有个特点,数据库中的每条记录,记录在单独一行。这个特性
很好啊,方便进行数据处理。如;在代码中一行行的读入文件,等价于,一行行的读入记录数据。很棒)
3:进行预处理。(这个,我copy网上大神的一段代码):所谓预处理,就是利用正则表达式,过滤掉数据集中无用的东西(即,如:无用的列)。
4:分词:选择一个 分词器,读入文件,进行分词,并把分词结果输出到另一个文件中(代码:掉cut函数,文件的读入,与写出操作)
5:新词发现:新词发现的简单思路:在python 中,建立一个字典 dict{},把dict.txt读入字典中。 建立一个测试文本test.txt ,进行分词,把分词的每一个词到 dict{} 中查找,
若找到,pass;若没找到,即为新词,加入字典 new_word{}
6:倾向性判别:看了好多论文,设计到 训练分类器,暂时不会。所以,用纯代码,实现一个简单的,粗糙的不能再粗糙的思路->
把每一行不是新词的情感词按行存储起来,并记录其极性;然后,这一行所出现的 新词的极性,就是 改行所有不是新词的情感词的极性的累加和
(代码:设置了4个python 字典,并且使用到了 字典嵌套。)
目前为止,效果不好。
- 基本思路 project1
- Project1.vbp
- GeekOS-Project1
- Project1.c
- Project1(Sorting)
- geekos项目project1代码
- GeekOS project1 -- 载入可执行文件
- GeekOS 中的project1
- 【Processing学习】Project1
- Computer Visualization Project1 总结
- 计算机系统要素 project1
- Computer Architecture project1
- Nachos project1 领悟
- 外挂基本思路!!
- 软件加密基本思路
- 基本思路随笔
- Build the seajs project1: preparation
- 【数据结构】dengyuxin的project1.2
- 开发板的基础知识,以及cortexA9的环境知识
- html 基础
- 请问百度联盟被K,换域名的事情
- 学习之旅
- block使用小结、在arc中使用block、如何防止循环引用
- 基本思路 project1
- Android Telephony启动过程源码分析
- AFNetWorking能做什么
- 深入理解计算机系统家庭作业第六章
- Ural1095
- Java RESTful Web Service相关概念
- [leetcode]Binary Tree Level Order Traversal
- PCL在Kinect for windows、Kinect for XBox360的使用情况
- 【C#网络编程系列】专题五:TCP编程