[发明专利]文本处理方法、装置、设备及存储介质在审
| 申请号: | 202011496984.9 | 申请日: | 2020-12-17 |
| 公开(公告)号: | CN112560500A | 公开(公告)日: | 2021-03-26 |
| 发明(设计)人: | 陈致鹏;崔一鸣;王士进;胡国平;刘挺 | 申请(专利权)人: | 中科讯飞互联(北京)信息科技有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/33 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 付丽 |
| 地址: | 100094 北京市海淀区西*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 处理 方法 装置 设备 存储 介质 | ||
本申请公开了一种文本处理方法、装置、设备及存储介质,本申请对于给定的包括单词及待填入候选项的空位置的目标篇章,以及目标篇章对应的若干个候选项,将目标篇章和候选项分别作为处理对象,获取每一对象的语义表示特征,该语义表示特征包括组成对象的各元素的语义表示,进而基于每一候选项及所述目标篇章的语义表示特征,确定每一候选项与所述目标篇章中各所述空位置间的关注程度,关注程度表示候选项与空位置间的匹配程度,进而可以基于每一候选项与所述目标篇章中各空位置间的关注程度,确定所述目标篇章中每一空位置匹配的候选项。按照本申请方案可以实现对目标篇章中各空位置与各候选项之间进行匹配的过程,也即完成阅读理解的处理任务。
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种文本处理方法、装置、设备及存储介质。
背景技术
在自然语言处理领域,阅读理解任务属于一种比较常见的任务,其任务目标是给定一篇文章,其中部分单词或句子被隐藏并使用空位置来代替,同时给定若干个候选项,处理目标即需要根据上下文信息从多个候选项中选出正确的候选项来还原文章,也即将候选项填入文章中对应的空位置。该任务旨在测试对篇章上下文的理解,以及对多个候选项之间比较迷惑的部分的区分,充分考察了自然语言处理技术在对篇章的总体思路把握程度,以及对于候选项之间的关系的区分能力。
因此,提供一种文本处理方案,以完成上述阅读理解任务,成为本领域技术人员的研究课题。
发明内容
鉴于上述问题,提出了本申请以便提供一种文本处理方法、装置、设备及存储介质,以实现对阅读理解任务的处理。具体方案如下:
一种文本处理方法,包括:
获取每一对象的语义表示特征,所述语义表示特征包括组成对象的各元素的语义表示,所述对象包括目标篇章及对应的若干个候选项,所述目标篇章包括单词及待填入候选项的空位置;
基于每一候选项及所述目标篇章的语义表示特征,确定每一候选项与所述目标篇章中各所述空位置间的关注程度,所述关注程度表示候选项与空位置间的匹配程度;
基于每一候选项与所述目标篇章中各空位置间的关注程度,确定所述目标篇章中每一空位置匹配的候选项。
优选地,获取目标篇章及对应的若干个候选项的语义表示特征的过程,包括:
获取基于语料数据预训练后的语义表示模型;
将每一候选项分别与所述目标篇章进行拼接,并将拼接结果输入所述语义表示模型,得到模型输出的与拼接结果对应的拼接语义表示特征;
从所述拼接语义表示特征中,拆分出所述拼接结果包含的候选项及目标篇章各自的语义表示特征。
优选地,所述将每一候选项与所述目标篇章进行拼接,包括:
将每一候选项在词表中对应的ID,与所述目标篇章在词表中对应的ID,通过设定的分隔符拼接在一起,得到拼接结果;
所述从所述拼接语义表示特征中,拆分出所述拼接结果包含的候选项及目标篇章各自的语义表示特征,包括:
以所述分隔符为标记,将所述拼接语义表示特征划分为两部分,分别对应拼接结果包含的候选项及目标篇章各自的语义表示特征。
优选地,所述语义表示模型为基于Bert模型所训练的语义表示模型。
优选地,所述基于每一候选项及所述目标篇章的语义表示特征,确定每一候选项与所述目标篇章中各所述空位置间的关注程度,包括:
针对每一候选项,计算所述候选项与所述目标篇章的语义表示特征间的特征匹配矩阵,所述特征匹配矩阵包括目标篇章中每一元素与所述候选项中每一元素间的关注程度值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科讯飞互联(北京)信息科技有限公司,未经中科讯飞互联(北京)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011496984.9/2.html,转载请声明来源钻瓜专利网。





