中文分词+词向量化

来源:互联网 发布:网络实验室耗材清单 编辑:程序博客网 时间:2024/05/23 13:50

好多自然语言处理工具包不能直接处理中文,如NLTK,因此,第一步要先进行分词处理,墙裂推荐使用结巴分词。
1、安装结巴python库

pip install jieba

2、语料库,这里使用搜狗实验室的网页新闻语料迷你版
3、分词

def jieba_cut(inputFile,outputFile):    '''    将从搜狗实验室下载的语料库<content></content>内容部分进行分词    :param inputFile: 要分词的语料库    :param outputFile:    :return:    '''    fin = open(inputFile,'r')    fout = open(outputFile,'w')    for eachLine in fin:        line = eachLine.strip().decode('utf-8','ignore')        line = re.sub('<.*?>','',line)#使用正则表达式去除html标签        wordlist = list(jieba.cut(line))#每行进行分词        outStr = ''        for word in wordlist:            outStr += word            outStr += ' '        fout.write(outStr.strip().encode('utf-8')+'\n')#写入到文件中    fin.close()    fout.close()

4、将分好词的文本,如corpus.txt,进行词向量化,使用Google word2vec工具,这里指定输出文件为vector.bin。

./word2vec -train corpus.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1 

5、使用向量化的文本就可以进行许多有意义的工作了,加油加油加油~

0 0