中文分词+词向量化
来源:互联网 发布:网络实验室耗材清单 编辑:程序博客网 时间:2024/05/23 13:50
好多自然语言处理工具包不能直接处理中文,如NLTK,因此,第一步要先进行分词处理,墙裂推荐使用结巴分词。
1、安装结巴python库
pip install jieba
2、语料库,这里使用搜狗实验室的网页新闻语料迷你版
3、分词
def jieba_cut(inputFile,outputFile): ''' 将从搜狗实验室下载的语料库<content></content>内容部分进行分词 :param inputFile: 要分词的语料库 :param outputFile: :return: ''' fin = open(inputFile,'r') fout = open(outputFile,'w') for eachLine in fin: line = eachLine.strip().decode('utf-8','ignore') line = re.sub('<.*?>','',line)#使用正则表达式去除html标签 wordlist = list(jieba.cut(line))#每行进行分词 outStr = '' for word in wordlist: outStr += word outStr += ' ' fout.write(outStr.strip().encode('utf-8')+'\n')#写入到文件中 fin.close() fout.close()
4、将分好词的文本,如corpus.txt,进行词向量化,使用Google word2vec工具,这里指定输出文件为vector.bin。
./word2vec -train corpus.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
5、使用向量化的文本就可以进行许多有意义的工作了,加油加油加油~
0 0
- 中文分词+词向量化
- python 自然语言处理 代码实现(批量读取,分词,词向量化)
- 词向量化
- 自然语言处理基础技术之分词、向量化、词性标注
- 词的向量化表示
- gensim词袋向量化
- 向量化
- 中文切词分词
- Mahout文本向量化
- R向量化运算
- 循环向量化
- 向量化编程
- 神经网络向量化
- 3.2 向量化if
- 3.3 不能向量化
- 神经网络向量化
- 文本文件向量化
- 神经网络向量化实现
- linux机器上建立授信
- 解决WES 7 中Composite Bus找不到驱动的bug
- 与运动相关的数据集
- MyEclispse2014 构建maven Web 项目
- Android面试题整理
- 中文分词+词向量化
- java基础之extends与implement
- 设置TreePanel叶子结点允许append
- 引用与指针
- Java配置----JDK开发环境搭建及环境变量配置
- static、final、transient [ Java ]
- 你想不到的快速开发平台(C/S版生成B/S版)WinForm版设计器
- 欧拉项目第九题 Special Pythagorean triplet
- JAVA深入研究——Method的Invoke方法。