[发明专利]一种基于word2vec的车系相关度确定的方法及装置在审
申请号: | 201811432873.4 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109635383A | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 陈希厚;邹晓明;马擘;庞敏辉;陈忠元;邱慧 | 申请(专利权)人: | 优信拍(北京)信息科技有限公司 |
主分类号: | G06F17/50 | 分类号: | G06F17/50;G06Q10/10 |
代理公司: | 北京知联天下知识产权代理事务所(普通合伙) 11594 | 代理人: | 王冲 |
地址: | 100102 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 车系 相关度 建模数据 过滤处理 构建 建模 省力 省时 展示 | ||
本发明公开了一种基于word2vec的车系相关度确定的方法及装置,所述方法包括:收集建模数据;对收集的建模数据进行过滤处理;根据过滤处理后的建模数据构建车系相关模型;计算车系相关模型的相关度;根据相关度展示相关车系。本发明的车系相关度方法及装置通过建模计算车系相关度的方法取代了人工确定车系的方法,处理过程省时省力。
技术领域
本发明属于计算机领域,特别涉及一种基于word2vec的车系相关度确定的方法及装置。
背景技术
目前,对车系的确定普遍采用人工确定的方法。这种方法由于人工参与,所以费时费力,这在二手车业务中表现的尤为突出。而且也存在其他诸多问题,例如:基于人工构建的相关车系在确定后不会在变化;对于某一车系,给出的相关车系个数较少,可能不会满足某些业务场景;对于相对冷门的车系,不能有效确定其相关车系;基于个人主观判断,可能不能完全反映用户所认可的相关车系。
为了解决人工参与而费时费力的问题,目前普遍采用基于计算机的自动化智能化手段来代替人工的方式。为了使计算机能够理解人们经常使用的文本信息,需要将文本信息切分为词,并将词转化为词向量,以数字的形式输入到计算机,做进一步的运算处理。word2vec是这种运算处理的一种较好的选择,其是利用浅层的神经网络来产生词向量的相关模型,训练得到词向量还能表示词义的相近。
目前,word2vec算法等神经网络算法已经成功的应用于解决机器学习及推荐搜索的问题中。但是由于车辆的复杂性,目前还没有一种方法能够基于word2vec算法来较好地替代人工。
发明内容
针对上述问题,本发明提供了一种基于word2vec的车系相关度确定的方法,所述方法包括:
收集建模数据;
对收集的建模数据进行过滤处理;
根据过滤处理后的建模数据构建车系相关模型;
计算车系相关模型的相关度;
根据相关度展示相关车系。
进一步地,所述建模数据包括:车系点击量数据、车源序列数据和车系序列数据。
进一步地,所述过滤处理包括删除数据处理和存储数据处理。
进一步地,所述删除数据包括删除不符合建模要求的数据;所述存储数据包括存储符合建模要求的数据。
进一步地,所述不符合建模要求包括用户的点击序列长度与其中所点击的不同的车系个数比值超过预定阈值。
进一步地,所述构建车系相关模型包括通过word2vec中的skip-gram模型建立车系相关模型和通过word2vec中的Hierarchical Softmax优化方法优化所述车系相关模型。
进一步地,在训练建立所述车系相关模型时,将过滤处理后的车系点击序列集合输入到所述skip-gram模型中,对所述skip-gram模型中用于获取输入输出的滑动窗口大小以及词向量的维度大小中的一个或多个进行调节。
进一步地,所述计算车系相关模型的相关度即基于词向量确定车系相关度。
进一步地,所述基于词向量确定车系相关度包括:
确定车系相关模型对应的词向量;
计算所述词向量表示的距离数值;
所述距离数值即为所述车系相关模型的相关度。
进一步地,所述展示相关车系即根据车系相关度提取展示车系相关度高的车系信息。
本发明还提供了一种确定车系相关度的装置,所述装置包括:
建模数据收集模块,用于收集建模数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于优信拍(北京)信息科技有限公司,未经优信拍(北京)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811432873.4/2.html,转载请声明来源钻瓜专利网。