Towards Constructing Sports News from Live Text Commentary读书笔记

来源：互联网发布：airx 知乎编辑：程序博客网时间：2024/06/04 18:58

分享的这篇论文讲的主要是从体育赛事的直播文本当中自动生成新闻，个人对这个方向很感兴趣，而且也觉得这个方向非常具有研究前景，在这里简单谈一下我对这篇论文的看法。

综述：

作为该方向上的一个初步研究，作者将此作为一个特殊的文档摘要任务，采取句子抽取的方式来处理。将足球比赛的直播文本作为输入，基于LTR（Learning to Rank）模型利用传统的句子特征以及为该任务特别设计的句子特征来给句子打分，根据句子的得分排名选择其中的一部分来构成新闻；为了解决局部冗余问题，采用基于DPP（Determinantal Point Process）的句子概率选择算法来生成最终的新闻摘要。实验结果表明该方法很适合这个任务并且在很多方面比baseline更加优越。

1、简介

论文的主要目的是实现依据足球比赛的解说直播文本内容自动生成赛事新闻，作为一个初步研究，将这个任务视为一个特殊的文档摘要任务：从比赛的直播文本中抽取句子生成新闻。

由于解说直播文本的一些特性，给系统的实现带来了挑战：1、几乎每一分钟都会有很多句子描述不同的事件；2、文本内容按照时间的顺序排序，很多重要的事件没有凸显；3、解说员更喜欢使用简单的，重复的词来描述同一种类的关键事件，并且以短句子居多，这将会使生成的新闻有很高的冗余度。

论文的主要贡献总结如下：

构建了数据集
基于LTR模型利用传统特征和Task-specific特征
提出一个概率句子选择算法解决冗余问题
实验结果表明任务的可行性，并且提出的方法比一些strong basiline要更好。

2、问题描述

2.1、任务描述

足球比赛G的直播文本中候选句子的集合S={s1,s2,s3,...sn}，生成新闻的长度不应超过B

2.2、数据收集

从新浪体育收集150场足球比赛的直播文本，并依据对应的比赛，从新浪体育和163足球中各收集一篇相应的新闻文本，作为任务的gold-standard news，并使用中文分词工具将句子切分成词序列。

3、通过抽取句子构建体育新闻

3.1、训练数据格式

每个候选句子Si的输入格式（Xi，Yi），Xi表示特征向量，Yi在这里表示得分，个人觉得这里应该是一个初始值，因为最终的排序是要根据Yi来排序的。

3.2、特征

其中将传统特征（position、length、number of stopword、sum of word weights 、similarity to the neighboring sentence）与任务特有的特征（标志词、比分、时间、运动员的收获欢迎程度）相结合

3.3、句子选择

对于采用以上步骤生成的体育新闻用Determinantal Point Processes(DPPs)来解决本地冗余问题

4、实验设置

4.1、数据准备

将实验数据分为三组，进行交叉验证

4.2、LTR

LTR模型：LTR是一个监督学习过程。对与每个给定的查询-文档对(query document pair)，抽取相应的特征(既包括查询和文档之间的各种相关度，也包括文档本身的特征以及重要性等)，另外通过人工标注或者从日志中挖掘的方法来得到给定查询下文档集合的真实序列。然后我们使用LTR的各种算法来学到一个排序模型，使其输出的文档序列和真实序列尽可能相似。

文档对方法
Pairwise方法是目前比较流行的方法，效果也非常不错。它的主要思想是将Ranking问题形式化为二元分类问题。
举例：pairwise将顺序d3，d2，d1看成{d3 , d2,+1}，{d2 , d1,+1}，{d3 , d1,+1}，{d2,d3,-1}，{d1,d2,-1}，{d3,d2,-1}。之后进行优化。于是，按照这种方式，我们就得到了二元分类器训练所需的样本了。预测时，只需要对所有pair进行分类，便可以得到文档集的一个偏序关系，从而实现排序。
缺点：1.它对不同级别之间的区分度是一致对待的。2.相关文档集大小带来的模型偏置。

使用随机森林预测得分排名。机器学习当前比较流行的算法，在这里根据特征计算得分（应该是选取某个概率最高的分数）。

4.3、余Baseline比较

与HeadTail、Centriod、LexRank、ILP以及Highlight进行比较。效果比这些strong basiline都好。

4.4、评价方法和指标

Automatic Evaluation和Pyramid Evaluation

5、结果与分析

5.1、与Baseline方法对比，结果比那些Strong Baseline要好。

5.2、特征验证。传统特征与task-specific特征对最终结果都有影响。

5.3、改进空间。

①直播文本中出现大量的短句子，而论文采取的方法很容易忽略这些短句子，而包含关键事件的部分短句子应当被抽取出来。个人认为这部分可以考虑套用seq2seq的方法，将含有关键事件的相邻的时间点的短句子融合起来，采用abstractive的方法，效果会比较好。
②作者认为文章所提到的句子选择算法只能解决局部冗余问题，而不能解决全局冗余问题。但我个人认为新闻最后的总结与比赛进程描述内容有所重复是可以接受的，结合体育新闻的特点，很多gold-standard都将总结部分放置新闻开头部分。

③在可读性方面还有较大提升空间

0 0