[发明专利]对象信息的存储、推荐方法及系统、设备和存储介质在审
申请号: | 201711261618.3 | 申请日: | 2017-12-04 |
公开(公告)号: | CN109948040A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 王颖帅;李晓霞;苗诗雨 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F17/27 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;李梦男 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标对象 对象信息 特征向量 存储介质 文本内容 主题存储 存储 特征词 数据库 存储方式 多个目标 分词处理 计算目标 | ||
1.一种对象信息的存储方法,其特征在于,所述存储方法包括以下步骤:
S11、获取多个对象的对象信息中的文本内容,对每则对象信息的文本内容进行分词处理,获得特征词;
S12、基于TF-IDF计算对象信息中每个特征词的TF-IDF值,并构成对象的特征向量;
S13、基于LDA模型和所述特征向量确定每则对象信息的主题,并将多则对象信息的特征向量按照不同的主题存储于数据库中。
2.如权利要求1所述的存储方法,其特征在于,步骤S11中,对每则对象信息的文本内容进行分词处理,获得特征词的步骤具体包括:
设置停用词库、自定义词库和常用词库;
根据分别存储于所述停用词库、所述自定义词库和所述常用词库中的停用词、自定义词和常用词对所述文本内容进行分词;
过滤所述文本内容以去除所述文本内容中的停用词,将文本内容中的自定义词和常用词作为所述特征词。
3.如权利要求1所述的存储方法,其特征在于,步骤S12具体包括:
计算每个特征词的TF值和IDF值;
根据所述TF值和所述IDF值计算每个特征词的TF-IDF值;
将所述文本内容中的特征词按照TF-IDF值由高至低的顺序排序,构成所述特征向量。
4.如权利要求3所述的存储方法,其特征在于,所述TF值的计算公式如下:
TF=No/Nv;
其中,No表示目标特征词在文本内容中出现的次数,Nv表示文本内容中所有特征词的个数;
所述IDF值的计算公式如下:
其中,Nm表示所述数据库中对象信息的文本内容的数量,Nmo表示所述数据库中包括目标特征词的文本内容的数量;所述目标特征词为当前选定的计算TF-IDF值的特征词;
所述TF-IDF值的计算公式如下:
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的对象信息的存储方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述的对象信息的存储方法的步骤。
7.一种对象推荐方法,其特征在于,所述对象推荐方法包括以下步骤:
S21、利用权要求1-4中的任意一项所述的存储方法将多则对象信息存储于数据库中;
S22、在接收到用户发起的请求时从所述数据库中获取目标对象信息;
S23、计算所述目标对象信息与待推荐对象信息的相似度,推荐相似度大于第一阈值的待推荐对象信息;
所述待推荐对象信息为所述目标对象信息所属主题中除所述目标对象信息之外的对象信息。
8.如权利要求7所述的对象推荐方法,其特征在于,步骤S23中,计算相似度的公式如下:
其中,cosA表示相似度,b表示所述目标对象信息的特征向量,c表示与所述待推荐对象信息的特征向量。
9.如权利要求7所述的对象推荐方法,其特征在于,步骤S23中,推荐相似度大于第一阈值的待推荐对象信息的步骤具体包括:
将相似度大于第一阈值的待推荐对象信息按照相似度由高至低的顺序排序后进行推荐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711261618.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种优化搜索结果的方法、装置及电子设备
- 下一篇:一种信息推荐方法及装置