俞士汶教授谈中文语言处理(一)
来源:互联网 发布:淘宝手机端宝贝分类 编辑:程序博客网 时间:2024/04/29 09:09
者按:我们多次前往北大计算语言学研究所和
访谈正文如下:
1、与英语等欧洲语言相比,中文在信息化处理上有很多不同的障碍,如:输入、分词等。请简要介绍一下中文语言处理的研究领域和存在的挑战?
中文信息处理应该大致划分为汉字信息处理和汉语信息处理两个显然不同的但相互又有联系的层次。在文字信息处理的层次上,由于汉字是大字符集,与英语等欧洲语言采用的几十个字母相比,发展进程中确实遭遇过很多不同的障碍,不过现在大体上已经克服了,汉字信息处理技术已经实用化、产品化。
在语言信息处理的层次上,特别是到了内容处理或语义理解的阶段,人类语言共性的影响远远超出了它们各自的特性。以词语切分(segmentation,即问题中的“分词”)而言,并不能说它是汉语的特别任务,其他语言(包括英语)也有相似的课题。 有实践经验的人又普遍感到(书面)汉语信息处理确实存在一些特别的困难。原因主要在于书面汉语的以下两个重要特点:
(1)不同的语言单位(以汉字表示的语素、词、短语、句子乃至更大的单位)之间界限不清晰;
(2)中文的语言要素,特别是词,在运用时缺乏指示其功能或语义的形态变化。
认识到汉语信息处理的困难,汉语信息处理发展的方向也就明确了。既要吸收国际上其他语言的先进理论、技术和经验,也要充分重视汉语的特点。研究领域要做的工作很多,最具基础性的工作应该是建设服务于汉语信息处理的知识库。
2、作为中文语言处理的独特内容,中文分词在国内外研究和应用领域都有什么最新进展? 书面汉语的词语切分是汉语信息处理的第一道关口,姑且不论它是不是独特内容。或许有的理论或系统声称没有“分词”这个步骤,但从语句中辨识出可以作为操作单位的或语言知识库之登录项(entry)的语言单位(不妨以“词”命名),总是无可回避的。 完全正确的切分取决于对文本理解的深度或者说需要足够的语境信息,“白天鹅在湖里游泳”即是一例。
目前自然语言理解技术未能取得突破,也不能期求词语切分百分之百地正确。不同的应用对切分的精度有不同的要求,不同的软件有不同的适用范围。 作为汉语词语切分研究领域的最近进展,有几件事值得一谈。
一是清华大学
二是中科院计算所
三是中国教育部语言文字应用研究所开发的平衡语料库和北大计算语言学研究所开发的《人民日报》基本加工语料库,规模都有数千万字。
另外,台湾中研院
技术的普及和基础资源的整备或许孕育了理论和技术的创新。
- 俞士汶教授谈中文语言处理(一)
- 俞士汶教授谈中文语言处理
- 俞士汶教授谈中文语言处理(二)
- 俞士汶教授谈中文语言处理(三)
- 齐国力教授谈养生(一)
- C语言处理中文
- nlpbamboo中文语言处理
- Java语言的中文处理
- Tomcat中文处理(一)
- SQLServer中文处理(一)
- R语言pdf输出中文乱码处理
- C语言中的中文处理的问题。
- 郎咸平教授谈P2P
- Python处理中文语言——读取中文
- C# 扩展方法应用一:中文处理
- C语言中文件操作备忘录(一)
- 炒冷饭,谈中文处理
- 兰迪教授的最后一课。
- 添加不存在记录的3种方法
- tomcat的每个线程在干什么?
- 10个让皮肤细腻光滑的小秘方
- VC解析XML
- GridView大全
- 俞士汶教授谈中文语言处理(一)
- SOA市场发展迅速 加快机构推出新服务
- 没有严谨的工作态度是不行的
- HibernateCallback
- 把100到150之间的不能被3整除的数输出,要求一行输出10个数
- prototype.js 1.4版开发者手册(强烈推荐)
- 在关键时刻能否坚持原则,常常是判断一个人道德水准的重要依据
- 企业数据管理是SOA/BPM硬币的第三面吗?
- 从键盘输入n个数,求其和