[发明专利]一种关键词推荐方法和装置在审
申请号: | 201310545713.1 | 申请日: | 2013-11-06 |
公开(公告)号: | CN104636334A | 公开(公告)日: | 2015-05-20 |
发明(设计)人: | 王磊;黄云平 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 解婷婷;栗若木 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 推荐 方法 装置 | ||
1.一种关键词推荐方法,其特征在于,所述方法包括:
接收输入信息;
将所述输入信息分词为多个词项;
用每个词项查询预先建立的倒排索引结构,所有词项查询所述倒排索引结构得到的关键词组成候选推荐词集合;
计算候选推荐词集合中每个关键词与所述输入信息的相关性分数,根据所述相关性分数选择一个或者多个关键词作为推荐词输出。
2.如权利要求1所述的方法,其特征在于,
所述相关性分数包括以下分数的一种或多种:文本相似度分,信息检索(IR)相关性分,类目相关性分,其中:所述文本相似度分由所述关键词分词后得到的各词项与所述输入信息中的各词项的相似度确定;所述IR相关性分由所述关键词包含的输入信息中的词项的个数及其权重确定;所述类目相关性分由每个关键词的类目与所述输入信息的类目的相似度确定。
3.如权利要求2所述的方法,其特征在于,
所述相关性分数包括文本相似度分、IR相关性分、类目相关性分中的两种或两种以上时,将所包含的分数线性加权求和得到最终的相关性分数。
4.如权利要求2或3所述的方法,其特征在于,
所述文本相似度分采用以下方法计算获得:
采用向量空间余弦相似度方法计算关键词分词后各词项的向量与所述输入信息中各词项的向量的相似度,其中每词项的向量包括词项和该词项的权重。
5.如权利要求2或3所述的方法,其特征在于,
所述IR相关性分采用以下公式计算获得:
其中,IR_Score为关键词的IR相关性分,wi为关键词命中输入信息中的词项的权重,max(w)表示被命中的词项的权重中的最大值,u表示所述关键词包含的输入信息中的词项的个数。
6.如权利要求2或3所述的方法,其特征在于,
所述类目相关性分采用以下方法计算获得:
采用向量空间余弦相似度方法计算关键词的类目向量与所述输入信息的类目向量的相似度,其中类目向量包括类目标识和该类目的权重。
7.如权利要求1或2或3所述的方法,其特征在于,
在计算获得相关性分数后,所述方法还包括:
根据所述相关性分数和关键词的搜索热度确定每个关键词的综合分;
根据所述综合分选择一个或多个关键词作为推荐词输出。
8.一种关键词推荐装置,其特征在于,包括:接收模块、预处理模块、召回模块和关键词评价模块,其中:
所述接收模块,用于接收输入信息;
所述预处理模块,用于将所述输入信息分词为多个词项;
所述召回模块,用于用每个词项查询预先建立的倒排索引结构,将所有词项查询所述倒排索引结构得到的关键词组成候选推荐词集合;
所述关键词评价模块,用于计算候选推荐词集合中每个关键词与所述输入信息的相关性分数,根据所述分数选择一个或者多个关键词作为推荐词输出。
9.如权利要求8所述的装置,其特征在于,
所述相关性分数包括以下分数的一种或多种:文本相似度分,信息检索(IR)相关性分,类目相关性分,其中:所述文本相似度分由所述关键词分词后得到的各词项与所述输入信息中的各词项的相似度确定;所述IR相关性分由所述关键词包含的输入信息中的词项的个数及其权重确定;所述类目相关性分由每个关键词的类目与所述输入信息的类目的相似度确定。
10.如权利要求9所述的装置,其特征在于,
当所述关键词评价模块计算的所述相关性分数包括文本相似度分、IR相关性分、类目相关性分中的两种或两种以上时,所述关键词评价模块还用于将计算得到的分数线性加权求和得到最终的相关性分数。
11.如权利要求9或10所述的装置,其特征在于,
所述关键词评价模块采用以下方法计算获得所述文本相似度分:
所述关键词评价模块采用向量空间余弦相似度方法计算关键词分词后各词项的向量与所述输入信息中各词项的向量的相似度,其中每词项的向量包括词项和该词项的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司;,未经阿里巴巴集团控股有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310545713.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种档案展示系统
- 下一篇:一种海量物联网感知数据的接入及标准化方法