[发明专利]深度学习模型的推理方法、装置、设备及存储介质在审

申请号：	202210404848.5	申请日：	2022-04-18
公开（公告）号：	CN114819159A	公开（公告）日：	2022-07-29
发明（设计）人：	闻磊	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06N5/04	分类号：	G06N5/04;G06N3/08;G06N3/04
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	唐会娜
地址：	100080 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	深度学习模型推理方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种深度学习模型的推理方法、装置、设备及存储介质，其中，所述方法包括：获取待推理的数据集；将所述待推理的数据集输入到推理卷积内核，得到浮点型的数据推理结果；获取所述待推理的数据集对应的输出缩放因子；其中，所述输出缩放因子根据所述数据推理结果中的元素的最大值确定；计算所述数据推理结果与所述输出缩放因子的乘积，得到量化结果；根据所述量化结果继续深度学习模型的推理。本申请用以解决现有技术的模型性能优化过程中，量化导致整体误差较大的技术问题。

技术领域

本申请涉及深度学习网络技术领域，尤其涉及一种深度学习模型的推理方法、装置、设备及存储介质。

背景技术

目前，深度学习已经广泛应用到各行各业，在传统算法难以解决的领域，取得了巨大的成果。但目前深度学习应用推广的一个问题在于，它的运行成本巨大，即使在如今GPU(图形处理器，graphics processing unit)的算力有较大提高的情况下，参数量逐年提升的深度学习模型也吃掉了GPU性能提升的红利。因此，对于模型本身的性能优化，是能否在大规模生产过程中应用深度学习的一个关键。

在模型性能优化过程，量化是其中的一个方法。量化的一个关键在于将浮点float32的精度的输入转换为整型int8的形式。而这个转换过程会引入相应的误差，如今的解决方案，大多不能实时对误差进行调整，导致整体误差较大，从而影响了最终的产品指令。

发明内容

本申请提供了一种深度学习模型的推理方法、装置、设备及存储介质，用以解决现有技术的模型性能优化过程中，量化导致整体误差较大的技术问题。

第一方面，本申请提供了一种深度学习模型的推理方法，包括：

获取待推理的数据集；

将所述待推理的数据集输入到推理卷积内核，得到浮点型的数据推理结果；

获取所述待推理的数据集对应的输出缩放因子；其中，所述输出缩放因子根据所述数据推理结果中的元素的最大值确定；

计算所述数据推理结果与所述输出缩放因子的乘积，得到量化结果；

根据所述量化结果继续深度学习模型的推理。

可选的，所述获取所述待推理的数据集对应的输出缩放因子，包括：

从所述数据推理结果的各个元素中，确定最大元素；

计算预设值与所述最大元素的商，得到所述输出缩放因子；其中，所述预设值为所述待推理的数据集的数据类型对应的取值范围的上限值。