[发明专利]多类别处理任务训练样本构建方法、设备及介质在审
| 申请号: | 202010936484.6 | 申请日: | 2020-09-08 |
| 公开(公告)号: | CN112070162A | 公开(公告)日: | 2020-12-11 |
| 发明(设计)人: | 张超;吴海山;殷磊 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
| 代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 张志江 |
| 地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 类别 处理 任务 训练 样本 构建 方法 设备 介质 | ||
本发明公开了一种多类别处理任务训练样本构建方法、设备及介质,该方法包括:获取样本数据在多个预设类别上的真实概率分布,并确定其预测概率分布;根据真实概率分布和预测概率分布,确定样本数据在多个预设类别上的损失列表;根据损失列表和真实概率分布,确定掩码列表,并根据掩码列表和损失列表,确定样本数据的正向类别损失和多个负向类别损失;进而由两者确定样本数据在多个预设类别中归属的正向类别和多个负向类别,并根据正向类别和多个负向类别,分别构建多个预设类别的正负向样本。本发明由多条样本数据的正向类别损失和多个负向类别损失,构建多个预设类别上的正负向样本,有利于各个预设类别之间样本数据的均衡。
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种多类别处理任务训练样本构建方法、设备及介质。
背景技术
随着金融科技(Fintech),尤其是互联网科技金融的不断发展,越来越多的技术(如人工智能、大数据、云存储等)应用在金融领域,但金融领域也对各类技术提出了更高的要求,如要求人工智能中的样本数据更为均衡。
目前,对于多类别分类任务,直接将收集到的各类别数据,作为多类别分类任务的样本数据,但不同类别所收集的数据数量通常难以均衡,对于涉及隐私、或者冷门的类别所收集的数据数量较少,而对于热门的类别所收集的数量数量则较多。如此一来,在依据不均衡样本执行多类别分类任务时,样本数量少的类别的准确率低。
因此,在多类别分类任务中,如何构建均衡的样本,以确保多类别分类任务的准确性,是当前亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种多类别处理任务训练样本构建方法、设备及介质,旨在解决现有技术在多类别分类任务中,如何构建均衡的样本的技术问题。
为实现上述目的,本发明提供一种多类别处理任务训练样本构建方法,所述多类别处理任务训练样本构建方法包括以下步骤:
获取样本数据在多个预设类别上的真实概率分布,并确定所述样本数据在多个预设类别上的预测概率分布;
根据所述真实概率分布和所述预测概率分布,确定所述样本数据在多个预设类别上的损失列表;
根据所述损失列表和所述真实概率分布,确定掩码列表,并根据所述掩码列表和所述损失列表,确定所述样本数据的正向类别损失和多个负向类别损失;
根据所述正向类别损失和多个所述负向类别损失,确定所述样本数据在多个预设类别中归属的正向类别和多个负向类别,并根据所述正向类别和多个负向类别,分别构建多个预设类别的正负向样本,以基于多个预设类别的正负向样本生成多类别分类模型进行类别分类。
可选地,所述根据所述正向类别和多个负向类别,分别构建多个预设类别的正负向样本的步骤之后,所述方法还包括:
基于多个所述预设类别的正负项样本,对预设多类别模型进行训练,生成多类别分类模型;
当接收到待分类数据时,基于所述多类别分类模型对所述待分类数据进行类别分类,确定所述待分类数据所归属的类别。
可选地,所述根据所述损失列表和所述真实概率分布,确定掩码列表的步骤包括:
对所述损失列表中的各数值进行排序,获得概率序列,并从所述概率序列中选取出排列在前预设位的目标概率;
确定各所述目标概率在所述损失列表中的排列位置,并根据所述排列位置,对所述损失列表进行更新;
将更新后的所述损失列表和所述真实概率分布进行加和运算,生成掩码列表。
可选地,所述根据所述掩码列表和所述损失列表,确定所述样本数据的正向类别损失和多个负向类别损失的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010936484.6/2.html,转载请声明来源钻瓜专利网。





