anthology中文怎么读,anthology中文意思

  

  雷科技评论消息,最近Google提出的BERT模型,通过预测被屏蔽的词,利用Transformer的多层自注意双向建模能力,取得了不错的效果。而BERT模型的建模对象主要集中在原始语言信号上,很少使用语义知识单元进行建模。这个问题在中文里尤为明显。比如BERT处理汉语时,模型很难通过预测汉字来学习更大语义单元的完整语义表示。比如对于乒乓、清明上河图、七彩这些词,BERT模型可以很容易地通过词的搭配推断出口罩的词信息,但是并没有显式地对语义概念单元(比如乒乓、清明上河图)及其对应的语义关系进行建模。   

  

  试想,如果模型能够学习到海量文本中蕴含的潜在知识,势必会进一步提高每一项NLP任务的效果。基于此,百度提出了基于知识增强的ERNIE模型。   

  

  厄尼通过对海量数据中的词语、实体、实体关系进行建模,学习真实世界的语义知识。相比于BERT对局部语言共现语义表示的研究,ERNIE直接对语义知识进行建模,增强了模型的语义表示能力。   

  

  例子包括如下:   

  

  伯特学习到:哈尔滨是龙江省会,也是国际冰雪文化名城。   

  

  尔尼了解到:它是黑龙江的省会,也是国际文化名城。   

  

  在BERT模型中,可以通过“哈”和“宾”的局部共现来判断“儿”字,模型不学习与“哈尔滨”相关的知识。通过学习单词和实体的表达,厄尼可以模拟哈尔滨和黑龙江的关系,了解到哈尔滨是黑龙江的省会,哈尔滨是冰雪城市。   

  

  在训练数据方面,除了百科性和信息性的中文语料库,ERNIE还引入了论坛对话数据,使用DLM(Dialogue Language Model)对查询-应答对话结构进行建模,使用对话对作为输入,引入对话嵌入来识别对话的角色,使用对话应答损失来学习对话的隐含关系,进一步提高模型的语义表示能力。   

  

  在自然语言推理、语义相似度、命名实体识别、情感分析和问答匹配五个公开的中文数据集上验证了ERNIE模型的效果。与BERT相比,Ernie模型取得了更好的结果。   

  

  1.自然语言推理任务XNLI   

  

  XNLI由脸书和纽约大学的研究人员共同建立,旨在评估该模型在多种语言中的句子理解能力。目标是判断两个句子之间的关系(矛盾、中立、隐含)。   

  

  链接:https://github.com/facebookresearch/XNLI   

  

  2.语义相似度任务   

  

  LCQMC是哈尔滨工业大学在自然语言处理COLING2018国际峰会上构建的问题语义匹配数据集。它的目标是判断两个问题的语义是否相同。   

  

  链接: http://aclweb.org/anthology/C18-1166   

  

  3.情感分析任务   

  

  ChnSentiCorp是一个中文情感分析数据集,它的目标是判断一个段落的情感态度。   

  

  4.命名实体识别任务MSRA-NER   

  

  MSRA-NER数据集由微软亚洲研究院发布。其目标是命名实体识别,是指对文本中具有特定含义的实体的识别,主要包括人名、地名和机构名。   

  

  5.检索问答匹配任务NLPCC-DBQA   

  

  NLPCC-DBQA是自然语言处理和中文计算国际会议NLPCC于2016年举办的评测任务。它的目标是选择能够回答问题的答案。   

  

  地址http://tcci.ccf.org.cn/conference/2016/dldoc/evagline2.pdf :号   

  

  预培训模型下载地址:   

  

  https://ernie.bj.bcebos.com/ERNIE.tgz   

  

  数据下载地址:   

  

  https://ernie.bj.bcebos.com/task_data.tgz   

  

  Github地址:   

  

  https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE   

相关文章