[发明专利]一种关键词推荐方法和装置在审
申请号: | 201310545713.1 | 申请日: | 2013-11-06 |
公开(公告)号: | CN104636334A | 公开(公告)日: | 2015-05-20 |
发明(设计)人: | 王磊;黄云平 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 解婷婷;栗若木 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 推荐 方法 装置 | ||
技术领域
本发明涉及计算机领域,具体涉及一种关键词推荐方法和装置。
背景技术
在线竞价广告是一种目前广泛存在的互联网信息推荐方案,包括基于关键词的信息推荐方式。基于关键词的信息推荐方式是根据用户在搜索引擎中输入的关键词来确定向用户推送的信息。用户在网站内外进行信息投放时,必须以关键词为单位选择投放,如何获得适合自己的关键词成为关键操作之一。进行信息投放的用户选择关键词后,对关键词进行出价,网站或信息投放平台制定投放和扣费机制。常见的扣费机制有CPC(Cost Per Click,按照点击扣费,信息的被点击数越多则扣费越多),CPM(Cost Per Mille,按照信息的千次展现数扣费),CPS(Cost Per Sale,按照成交金额扣费,类似于成交提成)等。
关键词推荐系统在互联网信息投放系统中一直有广泛的需求,现有技术方案有以下几类:
●基于offer(比如信息投放者发布的一条商品出售信息或求购信息)的抽取和组合。主要方法是:对信息投放者发布的offer的标题、属性等字段进行分词、标注和权重计算等操作,对其中预设的重要term进行抽取和组合从而得到一个关键词集合,对关键词集合中关键词的命中的term、term的标签(比如,term的词性)及term的权重进行打分。该分数表示关键词完整地表达了offer的重要含义的程度。其中,在空间向量模型中,文本的内容特征常常用它所含有的基本语言单位(比如字、词、词组或者短语等)来表示,这些基本的语言单位被统称为文本的词项,即term。
●基于IR(信息检索)系统的offer的关键词推荐。IR系统是基于信息检索技术的一种系统框架,封闭的形式如图书馆检索系统,开放应用形式如在线搜索引擎。IR系统包含倒排索引的建立系统、查询的构造模块、排序模块等。基于IR(信息检索)系统的offer的关键词推荐的主要方法包括:对信息投放者发布的offer进行分词、标注、分词的权重计算等操作后,抽取重要term,查询每个term到关键词的倒排索引结构,召回与该重要term相关的关键词。基于关键词中包含的term、term的标签及term权重对该关键词进行推荐度评分。基于关键词的推荐度评分选择合适的关键词推送给信息投放者。
现有技术方案的核心是基于用户投放信息的term级的组合,或运用了简单的IR系统去扩大关键词的召回率,这些方法的缺点可能包括:
1、关键词的召回率不足
基于offer的term的组合的方法,用户的offer的标题和属性均受到长度的限制,包含的信息普遍较少,质量参差不齐,难以推荐出足够数量的关键词供用户选择,关键词的召回率明显不足。而基于IR的offer的关键词推荐,虽然能部分提高关键词的召回率,但是不能召回同义词和近义词,以及字面含义不同但潜在含义相关的关键词。
2、关键词的相关性不足
基于offer的term的组合的方法,计算关键词与投放信息的相关性是按照term的标签、term的权重高低来进行加权计算的。由于这种方法受到词项的权重(term weight)的准确性和分词工具(如AliWS)的效果的限制,不能很好的衡量投放信息与关键词之间的相关性。例如:offer标题为“批发优质篮球背心”,基于offer的term的组合方法能够推出的词有“批发篮球背心”、“篮球背心”、“批发背心”。但是“批发背心”这个词已经和原来的offer不太相关。
基于IR的关键词推荐,能够通过IR的排序(rank)方法解决部分相关性问题,但是仍然不能解决同义异形关键词的相关性评分。在基于IR的关键词推荐方法中,关键词是否匹配投放信息判断是根据待匹配关键词包含投放信息中的分词的个数及该分词的权重确定的。然而,一种可能的情形是:关键词中包含投放信息中的重要分词,基于IR的关键词推荐方法可以确定该关键词与投放信息匹配,但实际上该关键词与该投放信息仍然不具有相关性。比如在进行手机供应类的投放信息和“手机电池”此类关键词的相关性评价时,“手机电池”这样的关键词表面上是存在“手机”这个重要term,且该term的权重较高。因此,在基于IR的关键词推荐方法中,“手机电池”可能会作为手机供应类的投放信息的相关关键词推荐给信息投放方。但是“手机”在手机供应类的投放信息中是作为产品核心词存在的,而在“手机电池”里却是修饰“电池”的一个修饰词。实际上手机供应类的投放信息与“手机电池”的相关性并不高。因此,基于IR的关键词推荐方法仍然具有推荐准确性不高的问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司;,未经阿里巴巴集团控股有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310545713.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种档案展示系统
- 下一篇:一种海量物联网感知数据的接入及标准化方法