ratinglabel,rating怎么翻译

  

  本报告将介绍发表在ACL 2021上的两篇论文。第一篇论文提出了第一个评价故事生成评价指标的评价基准。该基准基于人工标注和自动构建的数据集,对现有评价指标进行全面测试。发现现有的故事生成评价指标仍与人工评价相关性较弱,难以识别章节层面的不连贯错误,缺乏因果和时序的推理知识,缺乏鲁棒性和通用性。基准数据集、评测脚本和评测工具包已在https://github.com/thu-coai/OpenMEVA.发布在第二篇论文中,针对如何提高长文本生成的连贯性问题,提出在生成模型中引入句子级和文本级前缀表示,并分别通过句子相似度预测和句子位置判别的预训练任务来学习相应的表示。实验结果表明,该模型能够生成更加连贯的文本,具有更好的语言建模能力。该模型已在https://github.com/thu-coai/HINT.出版   

  

  本期AI TIME PhD直播间,我们邀请到了清华大学计算机科学与技术系博士生关建分享―― 《开放端故事生成评价指标的评测基准及长文本生成的连贯性建模》。   

  

  关建:清华大学计算机科学与技术系博士,师从黄敏烈副教授。研究方向为长文本建模,以第一作者身份在ACL、AAAI、EMNLP等国际知名会议上发表多篇论文。   

  

  OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics   

  

     

  

  在第一篇论文中,提出了一个基准来评估开放式故事生成。   

  

  现有语言生成模型生成的句子质量远远落后于人类,最主要的障碍是缺乏有效的评价指标。现在评价指标的范式是让机器生成一些语料库,然后由人打分,比如从0到5,然后让指标再打分,再计算指标得分和人得分的相关度。相关性越高,指标越好。然而,缺乏一套用于评估指标的标准基准数据。   

  

  此外,人工标记的数据集通常包含数据分布的偏差,或固有的标记偏差。另外,仅用相关性得分来评价一个指数的好坏,对指数的发展是非常不利的。因为一个0.2分,一个0.8分,我们根本不知道他们能抓到或者抓不到什么样的错误。所以我们需要一个非常全面和细粒度的基准来评估现有的评估指标。   

  

     

  

  本文提出了一个名为OpenMEVA的benckmark,专门用于评估开放式故事生成。这个benckmark包括两个数据集,一个叫MANS,是人工标注的数据集,另一个数据集是自动构建的,叫AUTOS。人工标注数据集可以衡量已有指标与人工评价的相关性,也可以评价指标的泛化能力。即当文本从不同的模型或不同的数据集生成时,指标的泛化性能是否能给出一个好的评价结果。另一方面,AUTOS在语义的不同方面构造不同的数据,以评估指标区分不同方面的连贯性的能力,以及指标面对不同方面干扰的鲁棒性。   

  

     

  

  我们发现一些最好的指标仍然存在很大的问题。例如,在MANS上的实验表明,现有指标与人工评估的相关性仍然较低。此外,当模型或数据集发生变化时,这些评价指标很难推广到不同的模型和数据集。另一方面,在评估自动车数据时,现有的评估指标在评估标记层和句子层的连贯性方面表现相对较好,但在语篇层的连贯性方面表现很差。   

  

     

  

  我们选择了五代机型,包括Seq2seq、GPT-2等。这些模型涵盖了从低质量到高质量的生成模型,可以很好地检验评价指标的泛化能力。在施工过程中,我们还采用了多种质量控制方法,结合李克特量表评分法(即1-5分)和比较法评分。我们给标注者五个模型生成的文本,一个负样本和一个人工正样本。然后,这七个样本由人类同时进行对比打分。此外,我们还对低质量样本质量较低的原因进行人工标注,并通过扣分机制进行评分,使得结果更加可靠和稳健。   

>   

  


  

我们在ROC和WP分别随机抽到200个样本,然后对于每个样本生成了用5个生成模型分别生成5个故事,总共得到1000个故事,然后每个故事由7个人来进行打分。从打分结果来看,在ROC上Seq2seq打分整体偏低,KG-GPT2打分偏高一点。最终得到的数据集在长度和质量上多样性较高,能够更好的去评价指标的泛化性表现。

  


  

  


  

AUTOS数据集关注两个方面,一方面是指标评价故事连贯性的能力,另外一方面是指标的鲁棒性。在连贯性上面关注几个子方面,指标是否能够识别词汇或者语义上的重复现象,是否能识别不合理的角色的行为、混乱的指代等等,是否不符合常识,否能识别故事的一致性或相关性、因果和时序关系。在鲁棒性方面,要求指标能够在同义词替换或者同义复述时保持打分不变。

  


  

  


  

对于判别连贯性的能力,我们用判别性测试去对这个指标进行评价,比如说在不同的方面去构造连贯的样本和不连贯的样本,然后让指标分别进行打分。连贯的样本标签为1,不连贯的样本标签为0。计算指标打分和label的相关性,相关性越高,则表示指标能更好的识别连贯和不连贯的样本。对于鲁棒性,我们用不变性测试,对输入进行过扰动前后,指标应该确保它的打分保持不变。

  


  

  


  

实验一共分为4个部分,包括和人工评价的相关性、泛化性、判别连贯性的能力、鲁棒性。在和人工评价的相关性上,实验结果表明现在的模型与人工评价的相关性依然非常低。对于重复和逻辑混乱这两方面,现在的评价指标已经能够进行比较好的判别,但是对于逻辑的无关性还有矛盾冲突这个方面,现有的指标还有很大的进步空间。

  


  

  


  

我们还做了另外一个实验,一个模型在某个指标上比基线模型要好,那么是否就意味着它在人工评价时也确实比基线要好。实验表明,像 BERT,RUBER-BERT这两个偏差的指标,新模型如果在这两个指标上比基线模型要好,它并不一定能够说明这个模型真的在人工表现上也比原来要好,因为它大部分黄色的就表示它相关性不是那么显著。对于PPL和UNION这两个评价指标,如果在这两个指标上能够比原来的模型表现要好,有很大的几率说明模型确实在人工表现上比原来好。

  


  

  


  

对于泛化性的实验,我们测试了model drift和dataset drift的表现。对于model drift,我们从不同模型采样生成样本,然后让不同的指标在不同模型生成的样本上进行评价。最后可以发现现在评价指标的泛化性依然是非常差。另外一方面在dataset drift的表现,在一个数据集上训练的指标,很难在另外一个数据集上达到一个很好的表现。

  


  

  


  

第三个实验在AUTOS数据集上来评价不同的评价指标 判断故事连贯性的能力。可以看到在词汇级别的重复上,现在的评价指标能达到一个比较好的表现。 在句子级别的错误上,比如语义重复、角色行为、符合常识,评价指标也能达到一个相对比较好的一个相关性,但是对于篇章级别的错误,现有的评价指标表现非常差,比如说在一致性上面、相关性上面、因果和时序关系上面,现有的评价指标都很难去进行一个比较好的判别。

  


  

  


  

在鲁棒性方面,在同义词替换、同义复述、增删标点符号、或缩写或者不缩写等方面,现在的评价指标的鲁棒性相对较好。 但是对于typo的鲁棒性非常差,虽然说现在的模型可能大部分都是对于typo无能为力,但是typo在现实生活中是经常出现的,所以说在这方面鲁棒性还是非常重要的。

  


  

  


  

总而言之,这篇文章提出了一个benchmark来全面的评价现有的评价指标。我们提出了两个数据集,一个是MANS,用于测试模型的指标整体表现,一方面是人工评价相关性,另外一方面是泛化性,用AUTOS来进行单元测试,在不同的方面上来评价指标。

  


  

Long Text Generation by Modeling SentenceLevel and Discourse-Level Coherence

  


  

  


  

因为现在长文本生成有一个缺陷:连贯性差。因此我们魏长文本生成提出一个生成模型,通过建模句子水平和篇章水平的连贯性来提高文本生成的连贯性。

  


  

生成连贯的文本是非常重要的,连贯性一方面体现在topical的相关性上面,也体现在句间的关系上,还有整体的discourse结构上。现有模型生成的文本有比较好的句内连贯性,但是难以生成全局连贯性的文本。

  


  

  


  

比如这个例子给定一个开头,Tim不是很爱运动,他身体不太好。然后BART生成一个故事,说他不擅长篮球,他是篮球队的一个成员,句子B和 A是冲突的,然后句子C说他在当地的一个 basketball team里面工作,和B是重复的,然后D说他打篮球非常好,和整篇文章没有什么关系。模型生成的故事有很多相关的概念,但是不能把这些概念安排合理。但是如果由人来写这个故事的话,非常连贯,语义非常相近,并且discourse relation的时间顺序体现得非常明显。

  


  

  


  

所以我们提出模型,名叫HINT,来生成长文本。一方面它有源于language model的token level的表示;另一方面,它有 sentence level和discourse level的表示,在生成的时候,每句话之后加入两个特殊token,一个是<sen>,一个是<dis>,<sen>去确认前面这句话的句子级别表示,<dis>来计算前面这几句话的关系。

  


  

  


  

language mode给定上一个词来预测下一个词。

  


  

  


  

我们用sentence similarity prediction的任务去学习句子级别的表示,即计算H2s和H1s这两个表示第一句话和第二句话之间的语义相似度。我们sentenceBERT预测这两句话的相似度作为真实标签,同时为了避免sentenceBERT的bias,我们要求相差小于一个小数δ就可以。

  


  

  


  

我们用句子顺序判别的任务来学习discourse level的表示,它即预测第一句话和第二句话是顺序颠倒的还是顺序正常。

  


  

  


  

总而言之,我们设计了loss,分别用于语言建模、句子顺序判别和句子相似预测。为了增强模型的泛化性,我们在训练时还会引入数据增广的技巧。

  


  

  


  

HINT模型是基于BART-base来进行实现的,我们在BookCorpus数据集上进行了post training。

  


  

  


  

HINT模型相比于BART,在各个方面都有一个比较强的提升,在相关性和顺序指标上有比较明显的提升。下面能够看到我们句子级别表示和篇章级别的表示都是比较重要的。生成结果在重复性、相关性和顺序这些指标上都有更进一步提升。

  


  

  


  

WringPrompts提升更明显一些。

  


  

  


  

人工评价的表现,不管是fluency还是coherence,我们的模型都比较好。

  


  

  


  

这是error analysis,通过人工标注去找了HINT模型在哪些方面还犯了错误,可以看到HINT在这些方面的错误都明显少于其他模型。

  

  


  

HINT是否有一个更好的语言建模能力。在连贯的样本上面它的Perplexity更低,在不连贯的样本上Perpleixity更高。但是在因果和时序这两个方面上, HINT模型相比其他模型的提高不显著,可能是因为这两方面对当前的模型来说更难以捕捉。

  

  


  

句子级别的表示是否能真正学到语义的表现,该案例说明HINT学到了一个比较好的句子级别的表示。

  


  

  


  

关于HINT是否学到了很好的discourse level表示。我们随机交换相邻两句话,M和D分别表示用 mean pulling去获得表示,和只在最后一个位置上去获得表示。BART模型无论顺序变化,它的相似度非常高的,但是HINT能比较好的判别顺序关系,所以这就说明HINT模型学到一个比较好的表示。

  


  

  


  

最后是case study,给定一个起始句子,HINT模型能生成一个有比较好的时序关系,相关性也非常高。但BART生成结果逻辑混乱,语序不太明确,事件相关性差。

  


  

  


  

总结,HINT是一个生成模型,我们提出了两个预训练的目标来学习句子级别和篇章级别的表示,能够生成更连贯的文本。这些文本有相关的上下文,合适的句子顺序,更好的语言建模的能力。

相关文章