[发明专利]基于阅读理解的汉越跨语言新闻事件要素抽取方法有效

专利信息
申请号: 202110743035.4 申请日: 2021-07-01
公开(公告)号: CN113626577B 公开(公告)日: 2022-11-01
发明(设计)人: 余正涛;赵庆珏;朱恩昌;高盛祥;张勇丙 申请(专利权)人: 昆明理工大学
主分类号: G06F16/335 分类号: G06F16/335;G06F40/211;G06F40/30;G06K9/62
代理公司: 昆明人从众知识产权代理有限公司 53204 代理人: 何娇
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 阅读 理解 汉越跨 语言 新闻 事件 要素 抽取 方法
【权利要求书】:

1.基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述方法的具体步骤如下:

Step1、实验数据集构建:构建实验所需要的数据集,数据集包含阅读理解中文数据集、中文事件可比数据集和越南语新闻事件要素抽取数据集;

Step2、新闻文本关键句检索模型构建:训练了一个新闻文本句子打分模型,来动态检索出有可能包含答案的序列;

Step3、新闻事件要素抽取模型构建:在Step2的基础上,同时对源语言和目标语言的训练数据进行建模,从而实现源语言到目标语言的知识迁移,获得新闻事件要素抽取结果;

所述Step3的具体步骤为:

Step3.1、问题生成:将所有的语义角色划分为不同的类别,与时间相关的语义角色、与地点相关的语义角色、与人物相关的语义角色、与组织机构相关的语义角色,然后为每个类别设计不同的问题模板;

Step3.2、双语编码器进行编码:利用mBERT对源语言和目标语言进行编码,提取新闻文本特征;

Step3.3、双语解码器进行解码:利用多头注意力机制来提取源语言知识,以提高目标语言答案抽取性能;

Step3.4、新闻事件要素过滤层进行过滤:通过启发式规则来过滤非法答案,得到新闻事件要素集;

所述步骤Step3.2的具体步骤为:

使用mBERT对中文和越南语的问题Q和新闻文本的关键子序列Z进行编码;给定越南语的问题QT和关键子序列ZT,使用特殊字符[CLS]和[SEP]拼接成PT输入到mBERT;

相应地将中文问题QS和关键子序列ZS拼接成PS输入到mBERT中;PT和PS经过编码后分别得到隐层表示其中L表示输入关键文本的长度,h表示mBERT的隐层大小。

2.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step1包括:

Step1.1、阅读理解中文数据集采用CMRC 2018;在越南网站爬取了708篇越南新闻文本,并根据抽取式阅读理解的形式进行标注;

Step1.2、然后根据预先定义的事件类型的关键词爬取并筛选了932篇中文新闻,形成了中文事件可比数据集。

3.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step2的具体步骤为:

Step2.1、切分新闻文本数据:使用Step1中的语料作为输入,通过使用动态规划算法将新闻长文本P切分成[X0,X1,…,XT-1];

Step2.2、检索关键句子:训练了一个新闻文本句子打分模型,对新闻长文本中的句子序列[X0,X1,…,XT-1]进行评分,以实现动态地抽取出和问题高度相关的句子。

4.根据权利要求3所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step2.2的具体步骤为:

Step2.2.1、给定一个问题Q={q1,q2,…,qn},其中n表示问题中序列长度;将打分模型的输入初始化;

Step2.2.2、训练一个基于mBERT的一个评分模型,对每个子序列进行评分将得分最高的子序列加到关键子序列中;经过多次迭代推理最终得到新闻长文本的关键子序列。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110743035.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top