[发明专利]一种样本数据处理方法、装置及计算机设备有效
| 申请号: | 202011513899.9 | 申请日: | 2020-12-21 |
| 公开(公告)号: | CN112257818B | 公开(公告)日: | 2021-03-09 |
| 发明(设计)人: | 顾凌云;谢旻旗;段湾;汪仁杰;张涛;潘峻 | 申请(专利权)人: | 上海冰鉴信息科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 匡睿 |
| 地址: | 200000 上海市浦东新区*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 样本 数据处理 方法 装置 计算机 设备 | ||
1.一种样本数据处理方法,其特征在于,应用于计算机设备,所述方法包括:
获取待处理样本数据并确定所述待处理样本数据的多个类别标签,根据所述类别标签将所述待处理样本数据划分为多个样本子集;其中,每个样本子集对应一个类别标签;
接收业务需求信息,根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列;
依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重;
其中,根据所述业务需求信息将所述多个类别标签进行排序,得到类别排序队列,包括:
确定业务需求信息对应的需求类别清单,构建所述类别标签对应的标签特征清单,所述需求类别清单和所述标签特征清单分别包括多个不同清单事件权重的清单元素;
提取所述业务需求信息在所述需求类别清单的任一清单元素的需求样本数据,将所述标签特征清单中具有最小清单事件权重的清单元素确定为目标清单元素;
根据所述待处理样本数据的样本数据分布图将所述需求样本数据映射到所述目标清单元素,在所述目标清单元素中得到需求映射数据,并根据所述需求样本数据以及所述需求映射数据生成所述业务需求信息和所述类别标签之间的相关性系数列表;
以所述需求映射数据为当前样本数据在所述目标清单元素中获取待关联数据,根据所述相关性系数列表对应的相关性匹配路径,将所述待关联数据匹配到所述需求样本数据所在清单元素,在所述需求样本数据所在清单元素中得到所述待关联数据对应的目标关联数据,并将所述目标关联数据确定为标签排序参考数据;
获取所述需求样本数据映射到所述目标清单元素中的映射路径轨迹;根据所述目标关联数据与所述映射路径轨迹上的多个路径节点单元对应的映射属性数据之间的数据传递缺损率,在所述标签特征清单中按照清单元素的清单事件权重的大小顺序逐层依次获取所述标签排序参考数据对应的排序参考结果,直至获取到的所述排序参考结果所在清单元素的排序置信度与所述标签排序参考数据在所述需求类别清单中的排序置信度一致时,停止获取下一清单元素中的排序参考结果,并建立所述标签排序参考数据与最后一次获取到的排序参考结果之间的排序执行路径;基于所述排序执行路径将所述多个类别标签进行排序得到类别排序队列。
2.根据权利要求1所述的方法,其特征在于,依次为所述类别排序队列中的每个类别标签下的每个样本子集分配样本权重,包括:
根据所述样本子集的总数确定整体样本权重;
基于所述整体样本权重以及所述类别排序队列中的每个类别标签下的样本子集的数量,确定每个类别标签下的样本子集的当前样本权重。
3.根据权利要求2所述的方法,其特征在于,确定每个类别标签下的样本子集的当前样本权重,包括:
针对每个类别标签,确定该类别标签下的所有样本子集所属的上一层样本子集,并获取所述上一层样本子集的样本权重;
根据所述上一层样本子集的样本权重确定该类别标签下的所有样本子集中的每个样本子集的当前样本权重,直至确定出最后一个类别标签下的每个样本子集的当前样本权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海冰鉴信息科技有限公司,未经上海冰鉴信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011513899.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音的处理方法和装置
- 下一篇:用户信息分类方法及装置





