[发明专利]检索目标的方法、装置及计算机可读存储介质在审
申请号: | 201810863272.2 | 申请日: | 2018-08-01 |
公开(公告)号: | CN110852094A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 陈立民;谢刚;尚鑫 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06F16/33;G06N20/00 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 姜雍;刘剑波 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 目标 方法 装置 计算机 可读 存储 介质 | ||
1.一种检索目标的方法,包括:
利用检索主题词的分词及分词组合,得到检索主题词的各个检索分量;
计算各个检索分量关于检索主题词的相对长度,所述相对长度为各个检索分量所包含字数与检索主题词所包含字数的比值;
利用检索主题词及各个检索分量在目标群中进行检索,并根据检索主题词及各个检索分量的检索结果生成检索主题词及各个检索分量的类别分布向量,类别分布向量的维度表示目标群包含的总类别数,类别分布向量的各个元素表示检索主题词或检索分量的各类检索结果的占比;
将检索主题词的类别分布向量、各个检索分量的类别分布向量以及所述相对长度输入预先训练的机器学习模型,得到各个检索分量关于检索主题词的相似度;
将检索主题词以及相似度满足预设条件的检索分量对应的检索结果,作为最终的检索结果。
2.如权利要求1所述的方法,其中,所述方法还包括:
从所述各个检索分量中将相对长度小于第一阈值的检索分量删除。
3.如权利要求1所述的方法,其中,所述方法还包括:
利用样本主题词的分词及分词组合,得到样本主题词的各个样本分量;
计算各个样本分量关于样本主题词的相对长度;
利用样本主题词及各个样本分量在目标群中进行检索,并根据样本主题词及各个样本分量的检索结果生成样本主题词及各个样本分量的类别分布向量;
标注各个样本分量关于样本主题词的相似度;
利用样本主题词及各个样本分量的类别分布向量、各个样本分量关于样本主题词的相对长度以及相似度,对所述机器学习模型进行训练,使得所述机器学习模型能够根据检索主题词的类别分布向量、检索分量的类别分布向量以及所述相对长度,计算得到检索分量关于检索主题词的相似度。
4.如权利要求3所述的方法,其中,所述标注各个样本分量关于样本主题词的相似度包括:
将样本分量的检索结果标为第一集合,将样本主题词的检索结果标为第二集合;
将第一集合与第二集合的交集中所包含检索结果的数量,与第一集合与第二集合的并集中所包含检索结果的数量作比,得到样本分量关于样本主题词的相似度。
5.如权利要求4所述的方法,其中,所述标注各个样本分量关于样本主题词的相似度还包括:
若样本分量关于样本主题词的相似度不在预设区间内,则将评估人员输入的相似性取值作为该样本分量关于样本主题词的相似度。
6.如权利要求3所述的方法,其中,所述对所述机器学习模型进行训练包括:
采用如下方法训练广义线性回归模型:y^=1/1+e-W*F;
其中,y^表示样本分量关于样本主题词的相似度,n表示目标群包含的总类别数,i表示类别序号,w1~w2n+1表示加权系数,f1,i表示样本分量的类别分布向量中的第i个元素,f2,i表示样本主题词的类别分布向量中的第i个元素,f表示样本分量关于样本主题词的相对长度。
7.如权利要求1所述的方法,其中,所述将检索主题词以及相似度满足预设条件的检索分量对应的检索结果,作为最终的检索结果包括:
将检索主题词以及相似度大于第二阈值的检索分量对应的检索结果,确定为最终的检索结果,所述相似度大于第二阈值的检索分量的个数为一个或多个;
或者,
将检索主题词以及相似度排名前M位的检索分量对应的检索结果,确定为最终的检索结果,M为正整数。
8.如权利要求1所述的方法,其中,所述各个检索分量为由所述检索主题词的分词或分词组合构成的该检索主题词的前缀或后缀。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810863272.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种配送站点的匹配方法和装置
- 下一篇:一种项目通讯录动态的生成方法