怎么"多快好省"地学习中文自然语言处理

来源:互联网 发布:剑三道长脸型数据 编辑:程序博客网 时间:2024/04/25 16:20

作为自然语言处理的初学者,感觉自然语言处理博大精深,处处是宝贝,处处想学习,但无奈可用时间太少.

所以,有必要给自己确定一些策略和原则,限定一些范围,避免迷失在知识的森林里.

1. 边学边练的原则

使用python, 很方便的边学边练NLP. NLTK工具及其教程<<OReilly.Natural.Language.Processing.with.Python.2009>>应该熟悉.

2.牢记中文NLP是目标

绝大多数的NLP开源工具是针对英文的,所以,学习和练习时都要考虑中文时该怎么处理.

3.有轻有重的原则

NLP全链路处理涉及很多不同功能模块(中文从分词开始),如果每个功能模块都深入学习,需要的总时间将是惊人的.

所以,要充分利用现有的开源资源,有些功能,如中文分词,就不要特别深入学习.有些功能模块,如文本分类,可以重点学习.

4.关于深度学习

深度学习理论上很诱人,但考虑到开源资源和由浅入深的原则,深度学习应用于NLP应放到学习的高级阶段进行.

5. 关于程序语言

作为学习者,python>Java>c++,在学习的中级阶段,可学习Java.大型的NLP应用系统适合用Java实现.至于c++,暂不考虑学习.

6.不要贪多求全的原则

NLP的书很多,开源工具很多,但不宜贪多求全,应该稳打稳扎,由浅入深.

7.关于算法学习

NLP使用了很多机器学习算法,对这些算法的学习和了解,应该有浅有深,最终以工程应用为目的,而不是学术发文章.



0 0
原创粉丝点击