[发明专利]一种基于时域特征的查询词自动补全方法与装置在审
申请号: | 201710273064.2 | 申请日: | 2017-04-19 |
公开(公告)号: | CN107169045A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 蔡飞;陈洪辉;蒋丹阳;刘俊先;罗爱民;陈涛;舒振;罗雪山 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市铸成律师事务所11313 | 代理人: | 郝文博,王建秀 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时域 特征 查询 自动 方法 装置 | ||
技术领域
本发明涉及领域,特别是指一种基于时域特征的查询词自动补全方法与装置。
背景技术
从用户开始在搜索引擎中输入查询词的那一刻,查询词自动补全(Query Auto‐Completion,QAC)就会向用户提供一个补全的查询词列表。这一搜索引擎的常用功能旨在减轻用户构造查询词时的体力和认知负担。当用户在搜索框中敲击字符时,QAC能提供一个以已输入字符为前缀的排序后的补全查询词推荐列表。用户可以点击推荐列表中的查询词也可以继续输入整个查询词。查询词前缀通常简短而含糊,造成准确捕获用户的查询意图并推荐相关的查询词存在一定的困难。因此,QAC系统的主要目标是满足大多数用户的信息需求,而最常用的方法是通过引入查询词日志并依据过往的查询次数对补全的查询词进行排序。虽然这一方法能生成满足一般用户的推荐列表,但由于它没有考虑查询词的时域模式,因此它远不是最优的方法。现有技术中有QAC模型考虑了查询词的近期性,但因其假设查询词未来的查询分布与过去相一致,因此它的性能仍不令人满意。
对于某些查询词,它们的查询次数在时域上较为平稳(如:google,amazon和wikipedia)或呈周期性变化趋势(如:christmas,mother’s day和movie);而其他查询词(如:Belgium terrorist attack)的查询次数可能会呈现急剧上升的趋势,这一趋势无法通过它们过往的查询次数来预测。通常来说,这一查询次数的激增是由于现实生活中的一些正在发生的吸引公众眼球的事件或爆炸性新闻所导致的。查询次数的突然上升被称为“激增”。因此,QAC系统需要对查询词查询次数中出现的意料之外的尖峰进行迅速响应,并且对排序推荐做适当调整。现有技术主要着眼于挖掘查询词次数的周期性模式并依据预测的查询次数对查询词进行重新排序,它们并未考虑呈现激增趋势的非周期性查询词。
针对现有技术中的QAC模型未考虑存在,导致查询词补全效果不佳的问题,目前尚未有有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种基于时域特征的查询词自动补全方法与装置,能够将激增趋势的非周期性查询词作为QAC模型的排序依据,提高查询词的补全效果与用户体验。
基于上述目的,本发明实施例的一方面提供了一种基于时域特征的查询词自动补全方法,包括:
获取查询日志,并基于时域特征预测查询日志中每个查询词的未来查询次数;
采集查询词前缀,并根据查询词前缀与查询日志生成补全查询词集合;
根据补全查询词集合中每个查询词的未来查询次数确定其查询次数得分;
使用移动平均方法根据查询日志获得补全查询词集合中每个查询词基于时域特征的激增幅度,并根据激增幅度确定其激增幅度得分;
根据补全查询词集合中每个查询词的查询次数得分、激增幅度得分与折中因子获得排序得分,并根据排序得分对补全查询词集合中的每个查询词排序显示;
当查询词前缀发生变化时,执行以上步骤重新生成补全查询词集合、计算排序得分并动态更新排序显示。
在一些实施方式中,所述基于时域特征预测查询日志中每个查询词的未来查询次数包括:
从查询日志中获取过去每个查询词按日计算的查询次数;
对过去每个查询词按日计算的查询次数使用离散傅里叶变换,生成傅里叶级数的频域系数;
根据傅里叶级数的频域系数生成周期图并取到最大值;
获取周期图最大值的频率,并根据最大值频率确定过去每个查询词的主要周期;
根据查询日志中获取过去每个查询词按日计算的查询次数与其主要周期预测查询日志中每个查询词的未来查询次数。
在一些实施方式中,所述根据查询词前缀与查询日志生成补全查询词集合包括:
根据查询词前缀在查询日志中检索符合查询词前缀的查询词;
将符合查询词前缀的查询词按其未来查询次数由大到小进行排序,并从序列头开始截取指定数量的查询词生成补全查询词集合。
在一些实施方式中,所述根据补全查询词集合中每个查询词的未来查询次数确定其查询次数得分包括:
根据补全查询词集合中每个查询词的未来查询次数确定其均值与标准差;
根据补全查询词集合中每个查询词的未来查询次数、均值与标准差确定补全查询词集合中每个查询词的查询次数得分。
在一些实施方式中,所述使用移动平均方法根据查询日志获得补全查询词集合中每个查询词基于时域特征的激增幅度包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710273064.2/2.html,转载请声明来源钻瓜专利网。