[发明专利]基于阅读理解的汉越跨语言新闻事件要素抽取方法有效
申请号: | 202110743035.4 | 申请日: | 2021-07-01 |
公开(公告)号: | CN113626577B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 余正涛;赵庆珏;朱恩昌;高盛祥;张勇丙 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F40/211;G06F40/30;G06K9/62 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 阅读 理解 汉越跨 语言 新闻 事件 要素 抽取 方法 | ||
1.基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述方法的具体步骤如下:
Step1、实验数据集构建:构建实验所需要的数据集,数据集包含阅读理解中文数据集、中文事件可比数据集和越南语新闻事件要素抽取数据集;
Step2、新闻文本关键句检索模型构建:训练了一个新闻文本句子打分模型,来动态检索出有可能包含答案的序列;
Step3、新闻事件要素抽取模型构建:在Step2的基础上,同时对源语言和目标语言的训练数据进行建模,从而实现源语言到目标语言的知识迁移,获得新闻事件要素抽取结果;
所述Step3的具体步骤为:
Step3.1、问题生成:将所有的语义角色划分为不同的类别,与时间相关的语义角色、与地点相关的语义角色、与人物相关的语义角色、与组织机构相关的语义角色,然后为每个类别设计不同的问题模板;
Step3.2、双语编码器进行编码:利用mBERT对源语言和目标语言进行编码,提取新闻文本特征;
Step3.3、双语解码器进行解码:利用多头注意力机制来提取源语言知识,以提高目标语言答案抽取性能;
Step3.4、新闻事件要素过滤层进行过滤:通过启发式规则来过滤非法答案,得到新闻事件要素集;
所述步骤Step3.2的具体步骤为:
使用mBERT对中文和越南语的问题Q和新闻文本的关键子序列Z进行编码;给定越南语的问题QT和关键子序列ZT,使用特殊字符[CLS]和[SEP]拼接成PT输入到mBERT;
相应地将中文问题QS和关键子序列ZS拼接成PS输入到mBERT中;PT和PS经过编码后分别得到隐层表示其中L表示输入关键文本的长度,h表示mBERT的隐层大小。
2.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step1包括:
Step1.1、阅读理解中文数据集采用CMRC 2018;在越南网站爬取了708篇越南新闻文本,并根据抽取式阅读理解的形式进行标注;
Step1.2、然后根据预先定义的事件类型的关键词爬取并筛选了932篇中文新闻,形成了中文事件可比数据集。
3.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step2的具体步骤为:
Step2.1、切分新闻文本数据:使用Step1中的语料作为输入,通过使用动态规划算法将新闻长文本P切分成[X0,X1,…,XT-1];
Step2.2、检索关键句子:训练了一个新闻文本句子打分模型,对新闻长文本中的句子序列[X0,X1,…,XT-1]进行评分,以实现动态地抽取出和问题高度相关的句子。
4.根据权利要求3所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step2.2的具体步骤为:
Step2.2.1、给定一个问题Q={q1,q2,…,qn},其中n表示问题中序列长度;将打分模型的输入初始化;
Step2.2.2、训练一个基于mBERT的一个评分模型,对每个子序列进行评分将得分最高的子序列加到关键子序列中;经过多次迭代推理最终得到新闻长文本的关键子序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110743035.4/1.html,转载请声明来源钻瓜专利网。