[发明专利]一种预测相似物品及训练其模型的方法和装置在审

专利信息
申请号: 201710606526.8 申请日: 2017-07-24
公开(公告)号: CN108932647A 公开(公告)日: 2018-12-04
发明(设计)人: 杨骏;史建明;李杰 申请(专利权)人: 上海宏原信息科技有限公司
主分类号: G06Q30/06 分类号: G06Q30/06;G06F17/30
代理公司: 上海容慧专利代理事务所(普通合伙) 31287 代理人: 于晓菁
地址: 200233 上海市徐汇*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 向量表示 训练分类 方法和装置 和向量 预测 随机采样 特征获取 物品模型 训练结果 准确度 词向量 维度 压缩
【说明书】:

发明公开了一种预测相似物品及训练其模型的方法和装置,其中,训练预测相似物品模型的方法,包括:获取物品的词袋表示和向量表示,物品的向量表示与该物品的属性维度值及其词向量相关;基于物品对的距离特征获取物品对的向量表示,物品对的距离特征与物品的词袋表示和向量表示相关;结合相似物品对的向量表示和随机采样的物品对的向量表示训练分类模型。本发明通过物品向量表示获取物品对向量表示来训练分类模型,多次压缩训练分类模型的输入数据,提高了训练分类模型的速度和训练结果的准确度,并且该方法适用于各种物品,包括商品、货品和产品等等。

技术领域

本发明涉及计算机领域,具体涉及机器学习领域,尤其涉及一种预测相似物品及训练其模型的方法和装置。

背景技术

相似物品对为两件在外观、价格和用途等几十个维度接近的物品,其中,不同维度影响相似性的程度不同,不同品类相同维度影响相似性的程度也不同。

当前,传统自然语言处理常用词袋模型来量化表示描述事物的一段文字,但对于计算机而言,此方法难以精确地计算两个词、文章的语义和语法相似度,而且词袋模型的数据稀疏性和维度灾难会导致模型的性能下降。近几年逐渐使用浅层神经网络直接由大量文本数据学习低维且连续的词向量,词向量能有效得表达一个词的语义和语法,但是对于分类物品判定两个物品是否相似还具有一定的局限性,其一表示物品词向量仍然需要高纬度,并且大部分维度都是无用的,真正有用的特征就藏在那么几个维度中,造成损耗大量的训练时间,并且判定结果不具有参考性,其二物品对之间的关联性比较薄弱,例如,会判定“长裙”和“短裙”两个商品描述文本为相似度一样的商品。

因此,本领域的技术人员致力于开发一种预测相似物品及训练其模型的方法和装置。

发明内容

有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种速度快且准确度高的预测相似物品及训练其模型的方法和装置。

为解决上述技术问题,本发明提供了一种训练预测相似物品模型的方法,包括以下步骤:

获取物品的词袋表示和向量表示,其中,物品的向量表示与该物品的属性维度值及其词向量相关;

基于物品对的距离特征获取物品对的向量表示,所述物品对的距离特征与物品的词袋表示和向量表示相关;

结合相似物品对的向量表示和随机采样的物品对的向量表示训练分类模型,以获得用于预测相似物品的模型。

进一步地,所述物品的向量表示包括:物品的各属性维度值的向量表示和物品的所有属性维度值的向量表示。

进一步地,通过中文语料和语言模型训练所述词向量,其中语言模型采用Glove模型、Word2Vec模型、SENNA模型和HLBL模型中至少一种模型。

进一步地,所述物品的属性维度值及其词向量采用哈希表方式存储。

进一步地,所述距离特征包括Jaccard相似度,所述距离特征还包括Manhattan距离、Euclidean距离、Cosine相似度、Canberra距离、Chebyshev距离和Bray-Curtis相似度中的至少一种,其中,Jaccard相似度与物品的词袋表示相关,Manhattan距离、Euclidean距离、Cosine相似度、Canberra距离、Chebyshev距离及Bray-Curtis相似度与物品的向量表示相关。

进一步地,所述相似物品对是已标注为相似的物品对,所述随机采样的物品对是未标注的物品对。

进一步地,采用N轮随机采样,N>1,其中,每轮随机采样的物品对的数量与所述相似物品对的数量相等。

进一步地,所述分类模型包括朴素贝叶斯分类器、逻辑回归分类器、支持向量机分类器、K最近邻分类器、随机森林分类器和梯度提升决策树分类器中的至少一种。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海宏原信息科技有限公司,未经上海宏原信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710606526.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top