程序博客网 > 社交网络推广

基于word2vec的词语相似度计算

来源：互联网发布：社交网络推广编辑：程序博客网时间：2024/04/24 20:01

关注公众号，一起学算法

作者：刘才权

编辑：黄俊嘉

基于word2vec的词语相似度计算

应用场景

假设你有一个商品的数据库，比如：

现在通过用户的输入来检索商品的价格，最简单的方法就是通过字符串进行匹配，比如，
用户输入“椅子”，就用“椅子”作为关键字进行搜索，很容易找到椅子的价格就是200元/个。
但有时用户输入的是“凳子”，如果按照字符串匹配的方法，只能返回给用户，没有此商品。但实际上可以把“椅子”的结果返回给用户参考。这种泛化的能力，通过简单的字符串匹配是显然不能实现的。

词语相似度计算

在上面的例子中，“凳子”跟“椅子”的语意更相近，跟“香蕉”或“冰箱”的语意相对较远。在商品搜索的过程中，可以计算用户输入的关键字与数据库中商品名间的相似度，在商品数据库中找出相似度最大的商品，推荐给用户。这种相近的程度就是词语的相似度。在实际的工程开发中可以通过word2vec实现词语相似度的计算。

代码实现

运行结果

调试技巧

在开发调试的过程中，会出现错误，需要重新运行程序。如果每次修改后，都从头开始执行，肯定会消耗很多无用的时间。比如，预处理后的文本结果和word2vec的训练参数，这些中间结果可以保持下来，当遇到问题时，就可以从文件中读取结果，而不需要每次都从头开始。

源码下载地址

https://github.com/CaiquanLiu/MachineLearning

代码参考

《Python机器学习及实践：从零开始通往Kaggle竞赛之路》

查看更加详细的代码请点击下方的阅读原文

”

▼点击阅读原文

阅读全文

0 0

社交网络推广

社交网络推广

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子中交字幕23页小明奇米中交字幕304页中交字幕23页手机版中交四公局中交三航局中交字幕126页中交路桥建设有限公司中交字幕23页小明中交一公局集团中交网兰花中交字幕58页35页中交字幕1页5566 中交字幕138页中交集团下属子公司排名中交字幕57页小明兰花中交网中交网中交字幕158页中交二公局四公司 2018年各个中交局待遇排名中交二航局第二工程有限公司中交字幕51页中交中央公园中交地产中交字幕120页手机版中交物资采购管理信息系统中交字幕78 中交字幕12页中交第二公路工程局有限公司中交各局实力排名中交字幕在线播放网站99 中交字幕一区二区三区中交字幕23页日韩中交第四航务工程局有限公司中交第四公路工程局有限公司中交建中交二航局正式工待遇中交一局很黑很烂中交兴路中交隧道局中交第二航务工程局有限公司