[发明专利]一种机器阅读理解方法、装置、设备和存储介质有效
| 申请号: | 202110571841.8 | 申请日: | 2021-05-25 |
| 公开(公告)号: | CN113191159B | 公开(公告)日: | 2023-01-20 |
| 发明(设计)人: | 张文斐;王嘉延;张佳祺;张栩华;钟国新;冯杰 | 申请(专利权)人: | 广东电网有限责任公司广州供电局 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/242;G06F16/33 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘晓娟 |
| 地址: | 510630 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 机器 阅读 理解 方法 装置 设备 存储 介质 | ||
本申请公开了一种机器阅读理解方法、装置、设备和存储介质,方法包括:将目标文档和查询问题均拆分为特征向量;采用预置编码器对特征向量进行编码操作,得到语义编码向量;通过预置阅读理解模型根据语义编码向量进行答案预测,得到查询问题对应的目标答案,预置阅读理解模型包括重复解码惩罚机制。本申请能够缓解现有机器阅读理解模型对数据量的依赖较大,导致模型准确率的提升受限的技术问题。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种机器阅读理解方法、装置、设备和存储介质。
背景技术
目前大部分阅读理解工作都在是在单篇章的任务上展开,而在实际应用中一个篇章往往不能保证答案的召回率。同时,阅读理解技术要用到深度学习模型,而深度学习模型需要大量的数据支撑。然而在实际应用场景中,往往无法拿出足够规模的语料来训练深度学习模型,导致模型理解准确率的提升受到影响。
发明内容
本申请提供了一种机器阅读理解方法、装置、设备和存储介质,用于缓解现有机器阅读理解模型对数据量的依赖较大,导致模型准确率的提升受限的技术问题。
有鉴于此,本申请第一方面提供了一种机器阅读理解方法,包括:
将目标文档和查询问题均拆分为特征向量;
采用预置编码器对所述特征向量进行编码操作,得到语义编码向量;
通过预置阅读理解模型根据所述语义编码向量进行答案预测,得到所述查询问题对应的目标答案,所述预置阅读理解模型包括重复解码惩罚机制。
可选的,所述将目标文档和查询问题均拆分为特征向量,包括:
将目标文档和查询问题进行词序列拆分操作,得到特征向量,所述特征向量包括词向量、分段向量和位置向量。
可选的,所述将目标文档和查询问题均拆分为特征向量,之后还包括:
为所述目标文档中的每一个句子添加起始标识符和结尾标识符。
可选的,所述预置阅读理解模型的配置过程为:
对预置UNILM模型进行参数微调,得到微调模型;
根据预置训练数据集对所述微调模型进行训练,得到训练模型;
通过预置评价指标对所述训练模型进行评价,将评价最高分的所述训练模型作为预置阅读理解模型。
本申请第二方面提供了一种机器阅读理解装置,包括:
拆分模块,用于将目标文档和查询问题均拆分为特征向量;
编码模块,用于采用预置编码器对所述特征向量进行编码操作,得到语义编码向量;
预测模块,用于通过预置阅读理解模型根据所述语义编码向量进行答案预测,得到所述查询问题对应的目标答案,所述预置阅读理解模型包括重复解码惩罚机制。
可选的,所述拆分模块具体用于:
将目标文档和查询问题进行词序列拆分操作,得到特征向量,所述特征向量包括词向量、分段向量和位置向量。
可选的,还包括:
添加标识模块,用于为所述目标文档中的每一个句子添加起始标识符和结尾标识符。
可选的,所述预置阅读理解模型的配置过程为:
对预置UNILM模型进行参数微调,得到微调模型;
根据预置训练数据集对所述微调模型进行训练,得到训练模型;
通过预置评价指标对所述训练模型进行评价,将评价最高分的所述训练模型作为预置阅读理解模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司广州供电局,未经广东电网有限责任公司广州供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110571841.8/2.html,转载请声明来源钻瓜专利网。





