短文本分类记录

来源:互联网 发布:surf算法 编辑:程序博客网 时间:2024/04/28 02:39

哎,研究了半个多月的主题识别,刚有重要的突破,好吧项目需要,又得重拾老本行了,心情忐忑,一方面担忧找工作,一方面也是对自己的能力是质疑的。之前一直在做短文本分类,做了很久了,从大四毕设开始就在做文本过滤这一块,我需要静下心来好好思考一下我自己的工作,以及下一步的该做什么的问题。
所做工作的发展过程记录如下:
大四的时候,我所做的工作就是简单的将所需要的文档提取出来,即提取抓取的推文的text字段,然后对数据进行简单的预处理:分词,去标点符号及特殊的符号,去停止词,去链接地址(仅处理英文推文部分),然后利用简单的词袋模型,就直接利用词频来作为特征,利用朴素贝叶斯分类器来进行训练,得到分类器之后,用于推文的过滤。(目标是尽可能的保留较多的有用推文,尽可能的过滤无用推文,所以要求召回率很高的情况下,精度尽可能的高)
研一的工作:接替师兄的锅,锅好大,怎么办,好像快要顶不住了,我们做的流程:从推文采集模块得到推文数据之后,提取text字段,对推文进行数据预处理,数据预处理部分:需要分词模块,命名实体识别,词性识别等,然后得到tokens_tags的形式,先是根据结构特征来进行过滤,若结构信息中没有主干信息则认为其为垃圾推文直接进行过滤,结构特征包括:不包含5词以上的句子,认为是垃圾推文过滤;标签中无loc信息认为是垃圾推文过滤;含有人称代词的推文认为是垃圾推文过滤;含有表示个人观点的词认为是垃圾推文过滤;含有3个以上重复字母的单词认为是垃圾推文过滤;统计非英文单词的比例超过0.5认为是垃圾推文过滤;二个引号之间的单词比例超过0.5认为是垃圾推文过滤;删去标点符号之间词数少于3的子部分,删去开头为疑问词以及结尾为?的子句,删掉表示判断的子句,(whether,if,might)等的子句,删掉首个标点为:,并且冒号前均为大写子母的子句,删掉截止词,只保留名词和动词,若最后列表不为空,则认为存在主干信息。
然后利用word2Vec来计算每条推文的特征,最后利用SVM来训练分类器,得到SVM分类器之后,导入模型,然后预处理数据,判断结构特征,提取主干信息,计算推文的特征向量,然后利用分类器进行分类,对于分类结果为0的推文过滤,分类为1的推文来进行下一步的处理。
研二的工作:当然,,研一基本上没有做什么项目相关的内容,就是简单的看一看论文,还是看什么姓名消歧,什么人物画像类的论文,没有做什么具体的工作,水水的过去了一年,真正的意识到自己的不足的就是在去了北京之后,然后就那20多天,感觉自己一下成长了很多,虽然我还是有点抗拒去北京的,觉得压力太大,也是能力不足啊,,呜呜,没办法改变了,就只能接受,希望下学期不要出差,求保佑。。上一次去北京,那边的要求是:需要将基于结构的判断与基于语义的判断分开来进行处理,这样就是二个分类器的并行处理,然后我现在要在这个上面来进行修改。
现在具体的思路流程:预处理推文之后,需要分为二个部分来进行处理,选择基于外部特征的分类器,基于内容特征的分类器。
如何来做这些问题呢?首先判断用户选择的是基于外部结构特征的过滤手段还是基于句子内容的过滤手段,或者二个均选择,不同的选择对应不同的处理过程。
我现在主要修改的部分是基于外部特征的判断这一块,所以我应该修改这一部分的程序,待我修改完再说噶

原创粉丝点击