[发明专利]基于阅读理解的汉越跨语言新闻事件要素抽取方法有效
申请号: | 202110743035.4 | 申请日: | 2021-07-01 |
公开(公告)号: | CN113626577B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 余正涛;赵庆珏;朱恩昌;高盛祥;张勇丙 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F40/211;G06F40/30;G06K9/62 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 阅读 理解 汉越跨 语言 新闻 事件 要素 抽取 方法 | ||
本发明涉及基于阅读理解的汉越跨语言新闻事件要素抽取方法,属于自然语言处理技术领域。本发明首先进行数据集的构建,然后训练了一个新闻文本句子打分模型,来动态检索出有可能包含答案的序列;同时对源语言和目标语言的训练数据进行建模,从而实现源语言到目标语言的知识迁移,获得新闻事件要素抽取结果,提高越南语新闻事件要素抽取的性能。本发明提出的基于阅读理解的汉越跨语言新闻事件要素抽取方法在自建的汉越双语新闻事件要素抽取数据集上的实验证明了本文方法的有效性。
技术领域
本发明涉及基于阅读理解的汉越跨语言新闻事件要素抽取方法,属于自然语言处理技术领域。
背景技术
新闻事件要素抽取任务旨在抽取新闻文本中描述主题事件的事件要素,如时间、地点、人物和组织机构名等。新闻事件要素抽取是新闻事件抽取的重要子任务之一,是新闻文本相似度计算、新闻事件关联关系分析以及事件检索等下游任务的基础。
跨语言事件要素抽取旨在联合多语言训练数据共同训练事件要素抽取模型,以缓解目标语言事件要素标注语料稀缺的问题。目前,在事件要素抽取方面,基于端到端的神经网络模型在有大规模标注数据的语种上取得了很好的效果,如英语和中文,但在只有少量或者无标注数据的小语种上的性能还有很大的提升空间;同时由于篇章级事件要素抽取需要捕获长距离的语义信息,支持跨事件的关联性分析,因此需要更强的语义理解和推断能力。因此,本发明将阅读理解的思想应用于新闻事件要素抽取任务,利用中文阅读理解数据集预训练源语言端的阅读理解模型,然后利用mBERT(multilingual BERT)同时建模中文和越南语的关系,并融合两种语言的表示来实现中文到越南语的跨语言知识迁移,完成资源稀缺型语言(越南语)新闻事件要素抽取。
发明内容
本发明提供了基于阅读理解的汉越跨语言新闻事件要素抽取方法,以用于解决低资源情境下跨语言新闻事件要素抽取问题。
本发明的技术方案是:基于阅读理解的汉越跨语言新闻事件要素抽取方法,所述基于阅读理解的汉越跨语言新闻事件要素抽取方法的具体步骤如下:
Step1、实验数据集构建:构建实验所需要的数据集,数据集包含阅读理解中文数据集、中文事件可比数据集(即和越南语描述的相同类型事件的中文新闻文本)和越南语新闻事件要素抽取数据集;
Step2、新闻文本关键句检索模型构建:训练了一个新闻文本句子打分模型,来动态检索出有可能包含答案的序列;
Step3、新闻事件要素抽取模型构建:在Step2的基础上,同时对源语言和目标语言的训练数据进行建模,从而实现源语言到目标语言的知识迁移,获得新闻事件要素抽取结果。
作为本发明的优选方案,所述Step1包括:
Step1.1、除了阅读理解中文数据集采用CMRC 2018之外,到目前为止还没有公开的汉越双语新闻事件要素抽取数据集,因此首先在越南网站爬取了708篇越南新闻文本,并根据抽取式阅读理解的形式进行标注;
Step1.2、然后根据预先定义的事件类型的关键词爬取并筛选了932篇中文新闻,形成了中文事件可比数据集。
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、切分新闻文本数据:使用Step1中的语料作为输入,通过使用动态规划算法将新闻长文本P切分成[X0,X1,…,XT-1];
Step2.2、检索关键句子:训练了一个评分模型,对新闻长文本中的句子序列[X0,X1,…,XT-1]进行评分,以实现动态地抽取出和问题高度相关的句子。
作为本发明的优选方案,所述Step2.2的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110743035.4/2.html,转载请声明来源钻瓜专利网。