[发明专利]样本筛选的方法和装置、业务对象数据搜索的方法和装置有效
| 申请号: | 201710577080.0 | 申请日: | 2017-07-14 |
| 公开(公告)号: | CN110019990B | 公开(公告)日: | 2023-05-23 |
| 发明(设计)人: | 肖非;刘士琛;欧文武;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/9535 |
| 代理公司: | 北京君以信知识产权代理有限公司 11789 | 代理人: | 谭镇 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本 筛选 方法 装置 业务 对象 数据 搜索 | ||
本申请实施例提供了一种样本筛选的方法和装置、业务对象数据搜索的方法和装置,其中,所述样本筛选的方法,包括:设置多级筛选层;选取所述多级筛选层中当前筛选层所需的训练样本;从所述训练样本中提取出适于当前筛选层的目标样本特征;采用所述目标样本特征,确定适于当前筛选层的筛选数量;按照所述目标样本特征和筛选数量选取出目标样本。本申请实施例可以自适应地调整各级筛选层的筛选数量,可以最大程度地优化资源,平衡效果和性能。
技术领域
本申请涉及计算机处理的技术领域,特别是涉及一种样本筛选的方法、一种业务对象数据搜索的方法和相应的一种样本筛选的装置、一种业务对象数据搜索的装置。
背景技术
互联网中的业务对象数据(如商品、网页等)的产生速度越来越快,种类也越来越多,伴随着用户的需求也越来越高,从最初的搜索关键词匹配,发展至针对用户的个性化推荐。
在个性化推荐的场景中,较为常用的是通过瀑布流模型(cascade)进行推荐对象的筛选,如筛选概率瀑布模型(soft cascade)、严格瀑布模型(hard cascade)等,但是,基于瀑布流模型的训练策略在线上应用的情况,理论上的处理代价(如耗时)与实际中的处理代价(如耗时)不一致,导致模型总代价(如耗时、内存等资源代价的总和)不准确。再者,在瀑布流模型中对所有种类的业务对象数据均设置相同的筛选数量,而业务对象数据的质量不同,可能导致搜索精确度降低、浪费计算资源。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种样本筛选的方法、一种业务对象数据搜索的方法和相应的一种样本筛选的装置、一种业务对象数据搜索的装置。
为了解决上述问题,本申请公开了一种样本筛选的方法,所述的方法包括:
设置多级筛选层;
选取所述多级筛选层中当前筛选层所需的训练样本;
从所述训练样本中提取出适于当前筛选层的目标样本特征;
采用所述目标样本特征,确定适于当前筛选层的筛选数量;
按照所述目标样本特征和筛选数量选取出目标样本。
优选地,所述当前筛选层所需的训练样本,多于下一级筛选层所需的训练样本;
适于所述当前筛选层的目标样本特征中,包含适于上一级筛选层的目标样本特征;
适于所述当前筛选层的筛选数量,大于下一级筛选层的筛选数量。
优选地,所述训练样本为与搜索关键词匹配的业务对象数据,所述的方法还包括:
生成所述搜索关键词与所述筛选数量之间的关联关系。
优选地,所述从所述训练样本中提取出适于当前筛选层的目标样本特征步骤包括:
从所述训练样本中提取原始样本特征;
确定所述原始样本特征的原始样本权重;
依据所述原始样本权重生成性价比参数;
按照所述性价比参数从所述原始样本特征中提取目标样本特征。
优选地,所述原始样本权重为所述原始样本特征对于预设的第一优化目标参数的重要程度因子;
所述依据所述原始样本权重生成性价比参数的子步骤进一步包括:
预置处理所述原始样本特征的代价系数;
计算所述原始样本权重与所述代价系数之间的比值为性价比参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710577080.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法及装置
- 下一篇:物品定位方法及相关设备





