[发明专利]多标记业务处理的方法及装置有效
申请号: | 201911421935.6 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111177507B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 方军鹏;唐才智 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06Q30/016;G06Q30/0601 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标记 业务 处理 方法 装置 | ||
1.一种针对业务模型进行数据预处理的方法,所述业务模型用于在智能客服平台的多标记业务处理过程中,针对用户问题在预定的多个标准问题类别中的第一类别和第二类别上进行二分类,所述多个标准问题类别包含至少三个类别,初始样本集中包括第一数量的初始正样本和第二数量的初始负样本,其中,所述初始样本集中的单个初始样本对应有通过相应用户问题提取的多个初始特征,以及所述多个标准问题类别中的至少一个标准问题作为类别标签,所述初始正样本是对应有第一类别标签且不对应第二类别标签的初始样本,所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本,所述第一类别标签、所述第二类别标签分别是与所述第一类别、所述第二类别对应的类别标签;
所述方法包括:
从所述第一数量的初始正样本或所述第二数量的初始负样本中获取第一初始样本;
针对所述初始样本集中的各个初始样本,分别由各个初始样本向所述第一初始样本维度进行投影,得到各个相对距离;
根据各个相对距离,检测所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本之间的区分性;
基于检测结果,确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征,所述基准特征用于将用户问题映射到由若干初始正样本和/或若干初始负样本重构的特征空间中,从而进行向标准问题的业务分类处理。
2.根据权利要求1所述的方法,其中,所述单个初始样本与所述第一初始样本之间的相对距离为,所述多个初始特征维度下的欧氏距离。
3.根据权利要求1所述的方法,其中,所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本之间的区分性通过第一区分指标进行衡量,所述第一区分指标用于量化描述所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本的区分程度。
4.根据权利要求3所述的方法,其中,所述第一区分指标为,第一数量的初始正样本和第二数量的初始负样本的类间距离与类内距离的比值,其中:所述类间距离为,所述第一数量的初始正样本相对于所述第一初始样本各个相对距离的平均值,与所述第二数量的初始负样本相对于所述第一初始样本的各个相对距离的平均值之差;
所述类内距离为,所述第一数量的初始正样本的正类内距离和所述第二数量的初始负样本的负类内距离的加权和,所述正类内距离为所述第一数量的初始正样本两两之间的相对距离的平均值,所述负类内距离为所述第二数量的初始正样本两两之间的相对距离的平均值。
5.根据权利要求3所述的方法,其中,所述第一区分指标为,所述第一数量的初始正样本和所述第二数量的初始负样本对应的各个相对距离的离散度,所述离散度通过以下方式之一确定:极差、方差、标准差、平均差。
6.根据权利要求3所述的方法,其中,所述第一区分指标为以下两项的加权和:
第一项为第一数量的初始正样本和第二数量的初始负样本的类间距离与类内距离的比值;
第二项为所述第一数量的初始正样本和所述第二数量的初始负样本对应的各个相对距离的离散度。
7.根据权利要求3-6任一所述的方法,其中,所述基于检测结果,确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征包括:
在所述检测结果包括所述第一区分指标大于预设阈值,所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本具有区分性的情况下,确定将所述第一初始样本作为针对所述业务模型重构的特征空间中的第一基准特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911421935.6/1.html,转载请声明来源钻瓜专利网。