HNC与语言学研究学术研讨会(第三届)简单记录(2)
来源:互联网 发布:免费英语听力制作软件 编辑:程序博客网 时间:2024/05/21 02:49
21号下午开始分为两个会场,由会议各个代表作报告。我有选择的听了一些,并没有记笔记。作为计算机出身的人员,一方面想多听学语言学的人的不同声音,另一方面又难以接受仅仅谈语言现象、未与机器处理相结合的报告。另外,做语音处理的报告也听得不太明白。
从语言的层次来讲,在词一级做处理的关注了两个报告。
北京邮电大学刘建毅作了报告《基于统计分类器的新词识别研究》。因为工作中也遇到了新词识别的问题,所以就关注了一下刘老师的研究思路。当然,他研究的新词也就是非专名的未登录词。就这个问题而言,刘老师觉得新词的识别也就是新词碎片的合与分的问题。他做了如下简单几个分类:
(根据碎片字的个数)
1+1;2+1;1+2;2+2;……
其中根据他的统计,“1+1”型与“2+1”型在全部类型中所占比列最大,约为84%。刘老师所用到的统计特征为:前字成词概率、后字成词概率、前字前位成词概率、后字后位成词概率以及共现概率。
前些日子做短语处理的时候,也遇到了新词的识别与新词语义的确定。如例子:
一种烤猪排、羊排、牛排的方法
目前我是通过短语的结构(内部概念之间的关系)来获取新词及其语义信息。例如这个例子会被程序分析为:[一种[烤[+ [猪排]、[羊排]、牛排]]的方法]。“[]”表示为一个结构单位,“+”表示该结构的子结构为并联关系(默认的为串联关系)。由分析结果可知,猪排、羊排在词库中都是没有收录的,但牛排是被收录的。由这个短语的结构我们可以确定猪排和羊排是和牛排对仗的概念,可以分别把单字碎片识别为新词。
但这种方法还不够,尤其是短语结构本身很多时候也依赖新词识别的效果,比如科技新词参与的短语,新词碎片给短语识别带来了太大的压力。
刘老师的思路有一定的启发。这个问题还要继续思考。
武汉大学的吴泓渺教授(法语系)作了一个关于专业术语处理的报告。本来我对这个是更感兴趣的,只是时间关系,吴老师也没有来得及详细介绍他所考察的法国人的研究成果。模糊还记得有个等价语义条件的概念,好像是说专业术语在翻译时,同一概念在各种语言中可能并不时一一对应的,一种语言提出的概念,在另外一种语言中有时很难翻译,没有相应的表达。但这些词语之间总得需要进行映射,这其中就需要一个语义等价的概念或判定方法。这是我当时的一点个人理解,也不知曲解了吴老师的意思。后面的模型更是都没有记住;只好等论文集的出版了。
- HNC与语言学研究学术研讨会(第三届)简单记录(2)
- HNC与语言学研究学术研讨会(第三届)简单记录(1)
- HNC与语言学研究学术研讨会(第三届)简单记录(3)
- HNC与语言学研究学术研讨会(第三届)简单记录(4)
- 第三届2015年材料科学与环境国际学术研讨会(AMSEM2015)征稿
- 语料库语言学与计算语言学研究丛书
- NLP汉语自然语言处理原理与实践 2 汉语语言学研究回顾
- 第十四届葡萄学术研讨会
- 中医多学科研究学术研讨会暨第一届模型中医学研讨会
- 第二十一届全国计算机信息管理学术研讨会
- 2007年多值逻辑与认知学术研讨会
- 计算语言学(CL)与自然语言处理(NLP)
- 计算语言学之语言理解与认知(1)
- 第八届中国香料香精学术研讨会
- HNC理论
- HNC理论
- 计算语言学札记(一)
- 计算语言学札记(二)
- 终于完成一个最重要的任务——找工作
- 一个大学生志愿者经历:大学3年仅花父母300元
- JMF(视频传输)
- 首感动无数考研人的诗:从明天起背书自习
- 未来电视—JAVA电视技术
- HNC与语言学研究学术研讨会(第三届)简单记录(2)
- 项目开发管理经验交流
- Lucene.net 搜索引擎技术(Analysis包/token详解)
- 用Javamail写的邮件接收程序
- 校园招聘会
- Java Applet编程响应鼠标键盘
- 杨澜专访木子美 最搞笑的是最后一句
- 行为的封装——模式系列谈之Command模式
- 一篇不错的讲解Java异常的文章