[发明专利]文本处理方法、装置、设备及存储介质在审
| 申请号: | 202011496984.9 | 申请日: | 2020-12-17 |
| 公开(公告)号: | CN112560500A | 公开(公告)日: | 2021-03-26 |
| 发明(设计)人: | 陈致鹏;崔一鸣;王士进;胡国平;刘挺 | 申请(专利权)人: | 中科讯飞互联(北京)信息科技有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/33 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 付丽 |
| 地址: | 100094 北京市海淀区西*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 处理 方法 装置 设备 存储 介质 | ||
1.一种文本处理方法,其特征在于,包括:
获取每一对象的语义表示特征,所述语义表示特征包括组成对象的各元素的语义表示,所述对象包括目标篇章及对应的若干个候选项,所述目标篇章包括单词及待填入候选项的空位置;
基于每一候选项及所述目标篇章的语义表示特征,确定每一候选项与所述目标篇章中各所述空位置间的关注程度,所述关注程度表示候选项与空位置间的匹配程度;
基于每一候选项与所述目标篇章中各空位置间的关注程度,确定所述目标篇章中每一空位置匹配的候选项。
2.根据权利要求1所述的方法,其特征在于,获取目标篇章及对应的若干个候选项的语义表示特征的过程,包括:
获取基于语料数据预训练后的语义表示模型;
将每一候选项分别与所述目标篇章进行拼接,并将拼接结果输入所述语义表示模型,得到模型输出的与拼接结果对应的拼接语义表示特征;
从所述拼接语义表示特征中,拆分出所述拼接结果包含的候选项及目标篇章各自的语义表示特征。
3.根据权利要求2所述的方法,其特征在于,所述将每一候选项与所述目标篇章进行拼接,包括:
将每一候选项在词表中对应的ID,与所述目标篇章在词表中对应的ID,通过设定的分隔符拼接在一起,得到拼接结果;
所述从所述拼接语义表示特征中,拆分出所述拼接结果包含的候选项及目标篇章各自的语义表示特征,包括:
以所述分隔符为标记,将所述拼接语义表示特征划分为两部分,分别对应拼接结果包含的候选项及目标篇章各自的语义表示特征。
4.根据权利要求2所述的方法,其特征在于,所述语义表示模型为基于Bert模型所训练的语义表示模型。
5.根据权利要求1所述的方法,其特征在于,所述基于每一候选项及所述目标篇章的语义表示特征,确定每一候选项与所述目标篇章中各所述空位置间的关注程度,包括:
针对每一候选项,计算所述候选项与所述目标篇章的语义表示特征间的特征匹配矩阵,所述特征匹配矩阵包括目标篇章中每一元素与所述候选项中每一元素间的关注程度值;
基于所述特征匹配矩阵,确定所述目标篇章中各空位置对应的元素与所述候选项间的关注程度值。
6.根据权利要求5所述的方法,其特征在于,所述基于所述特征匹配矩阵,确定所述目标篇章中各空位置对应的元素与所述候选项间的关注程度值,包括:
将所述特征匹配矩阵中,表示目标篇章中每一空位置的元素与组成所述候选项的各元素间的关注程度值求和,结果作为每一空位置与所述候选项间的初始关注程度值;
对所述目标篇章中各空位置与所述候选项间的初始关注程度值进行归一化处理,得到目标篇章中每一空位置与所述候选项间的最终关注程度值。
7.根据权利要求1所述的方法,其特征在于,所述基于每一候选项与所述目标篇章中各空位置间的关注程度,确定所述目标篇章中每一空位置匹配的候选项,包括:
从所述目标篇章中依次选取一空位置;
在各候选项中确定与选取的空位置间的关注程度最大的目标候选项,将所述目标候选项确定为与选取的空位置匹配的候选项;
将所述目标候选项从各候选项中移除,并返回执行从目标篇章中选取空位置的步骤,直至选取完全部的空位置为止,以得到每一空位置匹配的候选项。
8.根据权利要求7所述的方法,其特征在于,所述从所述目标篇章中依次选取一空位置,包括:
按照由所述目标篇章的开始至结尾的顺序,依次选取目标篇章中包含的空位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科讯飞互联(北京)信息科技有限公司,未经中科讯飞互联(北京)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011496984.9/1.html,转载请声明来源钻瓜专利网。





