mcol的博客说明及所思所想

来源:互联网 发布:垃圾处理器 知乎 编辑:程序博客网 时间:2024/05/18 02:57

本应来一段自我介绍作为开场白, 但查看个人资料已然起了替代作用, 有兴趣者即可查看。 如是, 只说说初衷及现状和未来要做的事情即可。 现在在学校里做自然语言处理方向的项目, 具体是文本翻译,未来要做的也是这个方向, 学习过程中遇到了很多困难, 于是决定记录下来, 其实也有写进度报告记录, 但不如博客易于查看和交流。 现在用的是Github上面的开源项目amunmt和nematus, 实验环境是在Centos7下, 在GTX1060下进行GPU和CPU的文本翻译测试。 所选的原因是这个环境比较稳定, 但是挺老师说现在的7.3版本遇到了好多的问题,最好是用7.0或7.1版本, 并且不要升级。 

Nematus是一个基于注意力机制的神经网络语言模型软件, 用于训练文本翻译时使用的model, 具体的源码地址可以通过搜索引擎得到。 可以通过对语料库进行训练, 得到模型。 Nematus是用Python语言编写的, 里面也有部分的C++代码, 所以运行速度不是很快, 在自己的CPU上尤慢, 在GPU上就快了很多。 其自身也带了翻译测试代码, 可以直接测试。 经过测试, 翻译速度与文本句子数成线性关系。 

Amunmt是C++编写的集成解码工具, 主要对多个语言模型翻译的结果进行处理, 得到一个更优的结果。 速度比Nematus快很多, 时间与文本句子数也是成线性关系, 因此可以使用。 Amu是波兰的一所大学, nmt是neural mechine translation的意思, 就是神经机器翻译。 

自己已经用了两个多月的时间进行环境的搭建和测试学习, 现在在写一个文本翻译的service, 具体是使用haproxy等开源工具来搭建, 这个事情可能要花两个月的时间, 之后就会开始理论的学习了。 自己是能学到很多的东西, 在这里记录一下, 也是作为分享。

0 0