NLP工具

来源:互联网 发布:淘宝网消费者投诉电话 编辑:程序博客网 时间:2024/05/16 12:57

bosonnlp

from bosonnlp import BosonNLPimport datetimenlp=BosonNLP('BOSON_API_TOKEN')//中文时间转换result=nlp.convert_time("去年清明节")//语义联想,相关词suggest=nlp.suggest('数学',top_K=10)//关键词提取,有权重,权重平方和为1keywords=nlp.extract_keywords(text,top_k=2)

word2vec

//从经过分词的文件训练词向量./word2vec -train words.txt -output vectors.bin -cbow 0 -size 100 -window 10 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1//分析词,输入三个词./word-analogy  vectors.bin//将经过分词的文件转换为包含词和短语的文件./word2phrase -train words.txt -output phrase.txt -threshold 500 -debug 2

gensim

//获取文本标签,docs.txt格式为一个文本一行,为分词后的文本,用空格分隔from gensim.models import Doc2Vecdocuments=TaggedLineDocument('docs.txt')model=Doc2Vec(documents,size=100,window=8,min_count=5,workers=4)model.save('docs.vector')
0 0
原创粉丝点击