作文评分相关工作

来源:互联网 发布:陈翔六点半网络大电影 编辑:程序博客网 时间:2024/05/17 06:50

已有相关工作1234

PEG

主要思想

PEG于1966年用美国杜克大学的Page等人开发,其开发者认为计算机没有必要理解作文内容,因为,作文内容是作文质量诸多因素中的内在因素,无法直接测量,因此,最为合乎逻辑的方法是:
1. 从作文文本中提取一些能够间接反映作文质量的文本表层特征项(surface features)。Page首先收集了一部分人工评分后的作文(训练集), 利用当时并不发达的自然语言处理技术, 从作文中提取若干个文本特征项(textfeatures), 并在这些文本特征项与人工评分之间进行相关性分析。
2. Page选择与人工评分相关的文本特征项作为自变量, 把人工评分作为因变量,进行多元回归分析, 得到回归方程。回归方程为每一个变量确定了beta值。
3. 在对新的作文进行评分时, PEG只需要提取这些变量, 并把beta值代入回归方程之中, 就可以预测出这些作文的得分。

Page最新实验结果与人工评分在多元回归相关性上达到了87%(2003)。

涉及技术

  1. 多元回归分析,得到回归方程。
  2. 自然语言处理,获取特征项。

IEA

主要思想

IEA(IntelligentEssayAssessor)是一种基于潜伏语义分析(Latent Semantic Analysis)的作文自动评分系统, 由美国科罗拉多大学的Thomas Landauer等学者开发。与PEG显著不同的是, IEA的设计者们在其网站上申明:“IEA是唯一能够测量语义和作文内容的程序”。
根据Landauer和Dumais(1997)的描述, 潜伏语义分析既是一种理论, 也是一种技术。这种理论认为, 在文本中隐藏着一个潜在的语义结构(semanticstructure),这一潜在的语义结构正是所有词汇(潜伏语义分析称之为“词汇项”, 即terms)的语义之和。
潜伏语义分析是一种矢量空间模型(Vector SpaceModel, VSM)技术, 但与一般的矢量空间模型相比, 这种技术能够通过减少维数(dimensionality)的方法(Landauer& Dumais, 1997;桂诗春, 2003), 有效地过滤干扰信息, 提取数据中的潜在语义结构。潜在语义结构可以通过一个词汇项-文档矩阵(term-by-documentmatrix)来代表, 矩阵中的每一行代表一个词汇项, 每一列代表一个文档, 而矩阵的每一个单元格中填入对应词汇项在对应文档中出现的频数。使用矩阵代表潜在语义结构的好处, 是对矩阵可以进行一种称之为奇异值分解(SingularValueDecomposition,SVD)的矩阵运算, 通过该运算, 原来的矩阵可以被分解成为三个不同的矩阵。减少维数后, 对这三个矩阵进行进一步的运算, 可以重建一个矩阵。重建后的矩阵因为使用了较少的维数, 与原来的矩阵相比, 可以更好地代表潜在语义结构。该矩阵保持了原来矩阵中最重要的语义联想关系(associationpatterns),同时又排除了大量的干扰信息。
IEA与人工阅卷的基本一致性在85% 到91%之间(2003)

涉及技术

  1. 潜伏语义分析,构建词汇项-文档矩阵。
  2. 奇异值分解,对词汇项-文档矩阵降维。

E-rater

主要思想

E-rater是由美国教育考试处(EducationalTesting Service, ETS)于20 世纪90 年代开发, 其目的是评估GMAT考试中的作文质量。
E-rater的开发者们声称, 他们的作文评分系统利用了多种技术, 其中包括统计技术、矢量空间模型技术和自然语言处理技术(Valentietal.2003)。凭借这些技术, E-rater不光能够像PEG那样评判作文的语言质量, 还能够像IEA那样评判作文的内容质量。除此之外, E-rater还对作文的篇章结构进行分析。
E-rater与专家评分的一致率大约是97%。
E-rater围绕三个主要方面对作文的质量进行分析和评判, Burstein等人把这三个方面称作为模块。
1. 话语(discourse)结构(亦即篇章结构)分析模块, 主要靠在文本中搜索“Insummary”、“ Inconclusion”等提示词(cuewords)的方法得以实现。
2. 句法多样性(syntacticvariety)分析模块, 根据作文中句子结构的多样性来评判作文的质量。显然, 该模块的目的是分析作文的语言质量。
3. 内容(content)分析模块,在这一模块中, E-rater通过矢量空间模型, 观察作文中是否包含了足够的与作文题目高度相关的主题词。
E-rater系统构建

涉及技术

  1. 向量空间模型,给文档和主题相关度打分。

三者比较

三种作文评分比较

其他国外作文评分系统

上面介绍了三种国外比较成熟的作文评分系统。还有一些其他的评分系统简介如下:

IntellMi etric

IntellMi etric是由V antage Learn ing 开发的, 第一套基于人工智能(A I) 的作文评分系统。它能够模仿人工评卷, 在1到4或者1到6的分值范围内对作文的内容形式组织写作习惯进行评分。
其核心技术是Vantage Learning的CogniSearchTM 和Quantum Reason ingTM 。前者是专门为IntellMi etric开发, 用来理解自然语言以支持作文的评分, 如它能分析词性和句法关系, 这使得IntellMi etric能够依据英语标准书面语的主要特征
来评判作文。二者结合使得Inte llMi etric能够内化作文中与某些特征相关的每一个得分点, 并用于接下来的作文自动评分。
IntellMi etric 评估了作文中语义、句法、篇章3个层次的300多项特征。在性能方面据称能够跟专家级评卷员给出的分数一样准确, 与评卷员的一致率达到了97% 至99%。

Bayesian Essay Test Scoring sYstem( BETSY) 和Larkey的系统

BETSY 是由美国教育部投资, 由马里兰大学College Park的Law renceM. Rudner开发的, 以概率论为指导, 基于训练语料对文本进行分类的程序。该系统使用了包括内容与形式等多方面的一个大型特征集, 根据4点类型尺度(优、良、合格、不合格)把一篇作文划分到一个最合适的集合中去。( Rudner& L iang, 2002) 文本分类所采用的底层模型是多元伯努利模型(MBM ) 和伯努利模型( BM ), 两者都属于朴素贝叶斯模型,因为它们都以条件独立假设为前提。
技术点
1. 多元伯努利模型,进行文本分类处理。
BETSY采用了462 篇作文的训练集, 在80篇作文的测试集上得到了80% 的准确率

国内研究

梁茂成方法

国内最早涉足自动作文评分领域的是梁茂成(2005)。梁茂成的建模方法兼顾了PEG 和IEA 的长处, 在训练集中提取了大量的作文浅层文本特征, 连同作文的内容得分作为自变量, 人工评分作为因变量一起用于多元回归计算, 得到作文评分的回归方程。提取待评分作文的相关特征值, 代入回归方程即可得到该作文的得分。梁茂成的研究取得了较高的评分准确率, 与人工评分相关系数R 最高达到83.7%。
该方法依旧是:选取特征项->多元回归分析->带入回归方程求出结果

李亚男方法

以多元线性回归为研究方法, 以45个可量化的评分要素作为自变量(其中第一个样本只利用了前40个评分要素) , 阅卷员给出的作文分数作为因变量, 利用逐步回归和强迫输入回归两种提取变量的方法, 进行多元线性回归分析, 并在样本内部两个随机组间进行交叉验证。最后将得出的8个回归方程进行比较, 发现利用前40个评分要素对多题目作文建立的回归方程虽然经方差检验都具有显著性, 但有效性指标R都很低。
该方法和梁的方法差不多,区别在于通过交叉验证不停的修改特征项。

曹亦薇和杨晨方法

第一个使用潜在语义分析技术对汉语作文进行自动评分研究的是曹亦薇和杨晨,他们的研究采用人工评分的202篇高中作文为样本, 使用潜在语义分析技术评价作文得到内容分数, 此分数与人工评价的内容分数的相关性达到47%。其研究表明, 潜在语义分析技术在汉语作文自动评分中起着重要作用, 但仅采用该技术实行作文评分显然不够, 尚需寻找更多的指标, 并辅以其他方法提高自动评分效果。

国内研究和国外研究在效果上差别大的几点原因

通过以上分析,我们发现,国外的方法效果明显好于国内实现的方法,其主要原因有一下几点:
1. 国内起步较晚,而且使用的方法改进不多。
2. 实验数据少,和国外动辄上万的数据相比,国内用于训练和测试的数据太少,特征项的选取上需要大量的实验才能确定效果较好的特征项。
3. 中文分词在一定程度上影响了特征项选取,语义分析等的效果,分词的过程在英语环境中是不需要的。


  1. 黄志娥等《HSK自动作文评分的特征选取研究》 ↩
  2. 江进林等《近五十年来自动评分研究综述兼论省略_国学生英译汉机器评分系统的新探索》 ↩
  3. 梁茂成等 《国外作文自动评分系统评述及启示》 ↩
  4. 陈潇潇等 《自动作文评分研究综述》 ↩
0 0
原创粉丝点击