NLTK与DataWiki

来源:互联网 发布:淘宝买个钻石店铺 编辑:程序博客网 时间:2024/05/17 19:15

最近在做机器翻译的作业,学习一个自然语言工具包NLTK(http://www.nltk.org/),用python做的一个项目,虽然是以教学为目的的项目,但看过去做得很大很全,据说有十万行代码,而且是python代码,我对大型项目的规模没有一个定量的概念,但至少这代码行数于我而言就已经算是巨大了。

文档更是非常清楚和详尽,从安装到代码和数据下载,到python的基本知识和调用语法到自然语言分析处理,或许是由于它原本就是为了教学的吧。我根据教程简单调用了它的几个功能(比如双语互翻、词频统计),也觉得很好用。

这让我想到另一个项目,是前不久老师让我们去了解的一个Google的项目DataWiki,是一个能够让用户自定义数据格式并上传格式化数据的平台,通过实验室同学做的那个报告,我感觉这个项目做得并不完善,许多很容易想到的功能都没有,据同学说那个项目本身就简单,就几个java文件实现的,没有什么东西。

这两个不同领域的项目相比较,从实现的全面性和功能的易用性来讲,显然前者有着明显的优势,但也并不是说后者就没有意义。我想,DataWiki的亮点,就在于它提出了用户自定义数据格式并提供了这样一个创建并上传格式化数据的平台,为格式化数据的增加提供了一种途径,而我们所能简单看到的一些功能上的缺陷只是一些用户体验和易用性上的问题,或许是几个页面几行代码就能解决的简单问题,在这一方面上的改进是永远没有尽头的也永远只是核心功能上的点缀,但是核心思想上的创新才是这一项目的存在价值。NLTK与之不同,自然语言处理这一理念已经被关注和研究多年,并且有了许多经典的理论成果和实现算法,NLTK所做的,是一个教科书式的工作,也就是将零散在各处的理念、算法整合并加以实现,它的存在价值,是全面、易用。两个项目的不同侧重点让我看到,一个项目,如果没有创新亮点,就应该尽量做到功能上的全面和易用;有了创新亮点,就应该更突出核心思想,当然一些用户体验上的功能性的东西也是要慢慢加上去的。

原创粉丝点击