30天了解30种技术系列(17)---词关系分析神器Word2vec
来源:互联网 发布:阿里云app名师课堂在哪 编辑:程序博客网 时间:2024/06/01 20:42
我本人是自然语言处理的从业者,同时也是非常非常热爱自然语言处理技术。所以分享一个我平常使用的工具-Word2vec.
Word2vec 是由Google开源,基于deep-learning 技术可以将单词转换成向量形式的工具。然后通过向量空间技术计算词的相似度。但是需要注意的是该模型其实更是一个神经网络模型,所以离这个Deep Learning 稍微差一些。
word2vec的官方地址:https://code.google.com/p/word2vec/,下载好代码后进行编译即可。
如果是中文,需要先找一个分词工具对词进行分词,可以用jieba(这个。。),阿里,ANSJ
通过以下方式可以对结果集,进行处理
nohup ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1 &##相似此计算/distance vectors.bin
以下使用81万条样本处理过后,得到的结果,从结果可以看出,屏幕的近似词为显示屏,电脑屏幕,还是相当的精准的。
有了这个以后,咱们就可以构建词的关系网络,如android 有关系的词,在海量文本数据里面是一种非常有效的前期数据处理工具。
大家如果对于哪个技术比较感兴趣,可以私信,我会有重点的在后续文章进行展开。
更多精彩请关注微信 : 图灵搜索
大家也可以使用中国第一个为程序员打造的搜索引擎:https://www.tulingss.com 进行查看。
阅读全文
0 0
- 30天了解30种技术系列(17)---词关系分析神器Word2vec
- 30天了解30种技术系列---(24)开源网站流量分析工具Piwik
- 30天了解30种技术系列---(1)现代web应用服务器-Express.js
- 30天了解30种技术系列---(3)JS的Make-GruntJS
- 30天了解30种技术系列---(4)Node.js神级开发工具-WebStorm
- 30天了解30种技术系列---(5)新型CSS框架-Less
- 30天了解30种技术系列---(6)非常赞的UI框架Flat-ui
- 30天了解30种技术系列---(11)Java开发者梦想的框架Play
- 30天了解30种技术系列---(8)终于等到你:Node.js
- 30天了解30种技术系列---(7)不只有Echart,我们还有Char.js
- 30天了解30种技术系列---(10)面向Cloud的搜索引擎 ElasticSearch
- 30天了解30种技术系列---(8)终于等到你:Node.js
- 30天了解30种技术系列(18)--- 强大的日志管理工具--Logstash
- 30天了解30种技术系列---(22) Bootstrap在线编辑器4款
- 30天了解30种技术系列(14)----Docker集群管理利器Swarm
- 30天了解30种技术系列---(26)MySQL自动化运维工具Inception
- 30天了解30种技术系列---(20)React .js 一个比较有意思的前端框架
- 30天了解30种技术系列---(16)可视化爬虫工具---Portia
- 12.11笔记
- 30天了解30种技术系列---(16)可视化爬虫工具---Portia
- CLASS
- 多年不见,csdn也改版了
- HDU
- 30天了解30种技术系列(17)---词关系分析神器Word2vec
- netty源码分析之服务端启动全解析
- 【Java学习笔记】如何定义Java中的不可变类
- 乐逛0.1
- 1012. The Best Rank (25)
- day3
- Verilog HDL语言的使用
- 30天了解30种技术系列---(13)Docker UI框架DockerUI
- CentOS配置YUM实现安装MySQL5.7