[发明专利]一种描述词的分类方法及设备有效
申请号: | 201610195403.5 | 申请日: | 2016-03-30 |
公开(公告)号: | CN107291722B | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 吴美玲 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 描述 分类 方法 设备 | ||
一种描述词的分类方法及设备,可首先基于各描述词样本的特征数据及各描述词样本所对应的类别训练得到分类模型;然后基于该分类模型对各待分类描述词进行分类,并根据得到的分类结果更新描述词样本集合,以及基于更新后的描述词样本集合对分类模型进行更新,再基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。也就是说,可通过循环迭代的方式,从大量未分类描述词中选取最具有信息量的描述词进行自动标记,并更新到已有的描述词样本集合中,以扩展分类模型的训练集、提高分类模型的健壮性及分类精度,从而可在节省人力资源消耗的基础上提升描述词分类结果的准确性。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种描述词的分类方法及设备。
背景技术
随着电子商务技术的不断发展,网络平台上的商品对象的品牌、类目等用于描述商品对象的属性特征的描述词也开始趋于多样化,变得多而繁杂,给用户寻找优质描述词带来了较大难度,降低了用户的应用体验。
为了解决上述问题,业界常采用以下方式来确定相应的优质描述词并推送给用户,以帮助用户快速寻找到相应的优质描述词,提高用户的应用体验:
方式一:采用人工方式进行优质描述词的识别和选取。例如,以品牌这一类描述词为例,可由品牌运营人员根据经验人工选取相应的优质品牌,并推送给用户。
但是,由于采用该种方式进行优质描述词的选取时,常常需要大量的运营人员来参与,从而会消耗大量的人工成本;另外,由于该种方式主要是由运营人员根据经验手动进行的,难免会存在经验误差,因而还会存在优质描述词的选取效率较低、以及所选取的优质描述词的丰富性和精确性较低、无法满足用户的需求等的问题。
方式二:利用积累的少量已标记的优质描述词样本,建立分类模型来对未标记的描述词进行判别,以确定相应的优质描述词。
虽然采用该种方式进行优质描述词的选取时,可在一定程度上提高优质描述词的选取效率、节省人工成本。但是,由于在分类模型的建模过程中,已经标记的优质描述词样本的占比很小(约为全部样本的0.1%),从而使得所建立的分类模型的鲁棒性和精确性较差,使得基于所建立的分类模型所得到的优质描述词的准确性也较低,效果并不佳。
也就是说,现有的优质描述词的确定方法,即描述词的分类方法均在一定程度上存在着所得到的结果并不准确的问题。
发明内容
本申请实施例提供了一种描述词的分类方法及设备,用以解决现有的描述词分类方法所存在的分类结果并不准确的问题。
本申请实施例提供了一种描述词的分类方法,所述方法包括:
确定待分类描述词集合以及所述待分类描述词集合中的各待分类描述词的特征数据;
基于设定的分类模型,对所述待分类描述词集合中的各待分类描述词进行分类,预测各待分类描述词的所属类别;其中,所述设定的分类模型是根据描述词样本集合中的各描述词样本的特征数据以及各描述词样本所对应的类别所训练得到的;
基于预测结果,从所述待分类描述词集合中筛选出满足如下条件的描述词:预测得到的该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致;
将筛选出的描述词以对应的类别为本次预测得到的该描述词的所属类别的方式加入描述词样本集合中,得到更新后的描述词样本集合,并将筛选出的描述词从待分类描述词集合中删除,得到更新后的待分类描述词集合;
基于更新后的描述词样本集合对所述设定的分类模型进行更新;并基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。
相应地,本申请实施例还提供了一种描述词的分类设备,包括:
数据获取模块,用于确定待分类描述词集合以及所述待分类描述词集合中的各待分类描述词的特征数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610195403.5/2.html,转载请声明来源钻瓜专利网。