匹配联行号

来源:互联网 发布:淘宝店代销靠谱吗 编辑:程序博客网 时间:2024/06/01 10:14

1、使用 word分词 进行分词:


1.1、下载word:

         https://github.com/ysc/word

1.2、word分词器的使用:

        1.2.1、参考:

          https://my.oschina.net/apdplat/blog/228619
          
List<Word> words = WordSegmenter.seg("杨尚川是APDPlat应用级产品开发平台的作者");List<Word> words = WordSegmenter.segWithStopWords("杨尚川是APDPlat应用级产品开发平台的作者");System.out.println(words);

仅引入包:word-1.3.1.jar 是不够的,会出现错误:NoClassDefFoundError: org/slf4j/LoggerFactory

还需要引入下面的包、可以解决上面的问题:
slf4j-api-1.7.22.jar 、 slf4j-log4j12-1.7.22.jar 、 log4j-1.2.17.jar

       1.2.2、引入 log 包后会出现包日志输出,可以屏蔽

          log4j:WARN  


训练词向量命令:

nohup ./word2vec -train ./corpus/news_tensite_corpus.dat.seg -output vectors.r -cbow 1 -size 200 -window 8 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 0 > train.log 2>&1 &

-window 8:窗口大小为8
-cbow 1:采用cbow算法
-binary 0:0训练结果不采用二进制存储

         

0 0
原创粉丝点击