[发明专利]一种描述词的分类方法及设备有效
申请号: | 201610195403.5 | 申请日: | 2016-03-30 |
公开(公告)号: | CN107291722B | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 吴美玲 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 描述 分类 方法 设备 | ||
1.一种描述词的分类方法,其特征在于,所述方法包括:
确定待分类描述词集合以及所述待分类描述词集合中的各待分类描述词的特征数据;
基于设定的分类模型,对所述待分类描述词集合中的各待分类描述词进行分类,预测各待分类描述词的所属类别;其中,所述设定的分类模型是根据描述词样本集合中的各描述词样本的特征数据以及各描述词样本所对应的类别所训练得到的;
基于预测结果,从所述待分类描述词集合中筛选出满足如下条件的描述词:预测得到的该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致;
将筛选出的描述词以对应的类别为本次预测得到的该描述词的所属类别的方式加入描述词样本集合中,得到更新后的描述词样本集合,并将筛选出的描述词从待分类描述词集合中删除,得到更新后的待分类描述词集合;
基于更新后的描述词样本集合对所述设定的分类模型进行更新;并基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
若确定更新后的分类模型满足以下条件,则不再对所述分类模型进行更新,并将基于满足以下条件的分类模型对所述待分类描述词集合中的各待分类描述词进行分类所得到的结果作为最终的分类结果:
分类精度不小于设定的精度阈值,和\或,更新次数不小于设定的次数阈值。
3.如权利要求1所述的方法,其特征在于,每一描述词的特征数据包括用于表征所述描述词的自身属性的第一特征数据,以及用于表征与所述描述词相关联的用户的特征的第二特征数据。
4.如权利要求3所述的方法,其特征在于,每一描述词的第一特征数据包括所述描述词的流量路径来源占比、调性特征、品质特征、资质特征、知名度特征,以及价格层级特征中的任意一种或多种;
每一描述词的第二特征数据包括与所述描述词相关联的用户在各年龄层级上的数量占比、在各性别层级上的数量占比、在各购买力层级上的数量占比、在各成交折扣率层级上的数量占比、在各活跃度层级上的数量占比、在各与所述描述词相关的回购率层级上的数量占比,以及在各与所述描述词相关的回访率层级上的数量占比中的任意一种或多种。
5.如权利要求3所述的方法,其特征在于,每一描述词的、与所述描述词相关联的用户为与所述描述词相关的热度不小于设定的热度阈值的用户,所述热度是基于所述描述词的每一关注用户的、与所述描述词相关的历史操作行为数据,以及各历史操作行为数据对应的权重,对每一关注用户的、与所述描述词相关的历史操作行为数据进行加权求和得到的。
6.如权利要求1所述的方法,其特征在于,所述描述词样本集合中的描述词样本包括描述词正样本,以及描述词负样本,其中:
所述描述词正样本是指综合评价指数不低于设定的第一指数阈值的描述词样本;
所述描述词负样本是指综合评价指数不高于设定的第二指数阈值的描述词样本;其中,所述第二指数阈值不高于所述第一指数阈值;且,每一描述词的综合评价指数是根据所述描述词的特征数据所确定的、用于表征所述描述词的性能高低的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610195403.5/1.html,转载请声明来源钻瓜专利网。