mcol的博客说明及所思所想
来源:互联网 发布:垃圾处理器 知乎 编辑:程序博客网 时间:2024/05/18 02:57
本应来一段自我介绍作为开场白, 但查看个人资料已然起了替代作用, 有兴趣者即可查看。 如是, 只说说初衷及现状和未来要做的事情即可。 现在在学校里做自然语言处理方向的项目, 具体是文本翻译,未来要做的也是这个方向, 学习过程中遇到了很多困难, 于是决定记录下来, 其实也有写进度报告记录, 但不如博客易于查看和交流。 现在用的是Github上面的开源项目amunmt和nematus, 实验环境是在Centos7下, 在GTX1060下进行GPU和CPU的文本翻译测试。 所选的原因是这个环境比较稳定, 但是挺老师说现在的7.3版本遇到了好多的问题,最好是用7.0或7.1版本, 并且不要升级。
Nematus是一个基于注意力机制的神经网络语言模型软件, 用于训练文本翻译时使用的model, 具体的源码地址可以通过搜索引擎得到。 可以通过对语料库进行训练, 得到模型。 Nematus是用Python语言编写的, 里面也有部分的C++代码, 所以运行速度不是很快, 在自己的CPU上尤慢, 在GPU上就快了很多。 其自身也带了翻译测试代码, 可以直接测试。 经过测试, 翻译速度与文本句子数成线性关系。
Amunmt是C++编写的集成解码工具, 主要对多个语言模型翻译的结果进行处理, 得到一个更优的结果。 速度比Nematus快很多, 时间与文本句子数也是成线性关系, 因此可以使用。 Amu是波兰的一所大学, nmt是neural mechine translation的意思, 就是神经机器翻译。
自己已经用了两个多月的时间进行环境的搭建和测试学习, 现在在写一个文本翻译的service, 具体是使用haproxy等开源工具来搭建, 这个事情可能要花两个月的时间, 之后就会开始理论的学习了。 自己是能学到很多的东西, 在这里记录一下, 也是作为分享。
- mcol的博客说明及所思所想
- 帝都的所思所想
- 项目管理的所思所想
- 一个程序员的所思所想
- 所思所想
- 所思所想
- 所思所想!
- 所思所想
- java中数组传递的所思所想
- 关于《白鹿原》的所思所想
- 项目管理所思所想
- 训练营 所思所想
- 对即将过去的这一年的所思所想
- 考研/嵌入式/我的所思所想及其他
- 解决Fragment重复添加问题的所思所想
- 博客说明----好记星不如烂键盘,记录所思,所学,以及转载的佳作........
- 关于自己在学习java路程上的所思所想(一)
- 关于自己在学习java路程上的所思所想(二)
- 文章标题
- 一张图了解网站SEO
- mysql创建定时器(event),查看定时器,打开定时器,设置定时器时间
- Swift学习1: String应用
- Ubuntu16.04 配置mysql并修改存储路径的艰难之旅
- mcol的博客说明及所思所想
- 各类文件的文件头标志
- tmux安装教程
- 1
- 手把手教你在友善之臂tiny4412上用uboot启动Linux内核
- CSS伪类和伪元素
- 十大算法总结
- redis中的五种数据类型和基本操作
- 跑马灯实验-库函数版