[发明专利]查询意图挖掘的方法和系统有效
申请号: | 201410101649.2 | 申请日: | 2014-03-18 |
公开(公告)号: | CN103927328B | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 夏云庆;那森;黄耀海;赵欢 | 申请(专利权)人: | 清华大学;佳能株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 李迪 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 查询 意图 挖掘 方法 系统 | ||
技术领域
本发明涉及信息检索领域,尤其涉及一种查询意图挖掘的方法和系统。
背景技术
互联网是官方发布科技信息、个人发布日记或博客的平台。信息检索系统(例如搜索引擎)日益重要,因为它能够从大数据集中找到用户想要的信息;然而,不同的用户会使用同一个简短且模糊的查询词去查找不同的信息(解释),这就导致现有信息检索系统难以返回充足、准确的结果。为了帮助用户快速且准确地找到他们感兴趣的信息,各种各样基于自然语言处理和信息检索的搜索结果整理方法应运而生。
如图1所示,展示了一个用户接口,包含输入的查询、挖掘得到的意图和属于不同意图的搜索结果。这些结果的罗列通常使得用户需要耗费较多的时间和精力进行筛选,以获取真正符合自己意图的搜索结果。
即使是现有的最优方案:THUIR(信息检索组)团队提出的“先从互联网数据(主流搜索引擎的搜索结果及搜索查询日志等)中挖掘候选意图;然后根据照特征对这些候选意图进行排序,特征包括意图频度、共现频度、点击统计和编辑距离等;最后,系统输出排序的意图列表”这一技术方案依然不能准确找到用户的真正意图。比如,用户输入搜索查询“cipro for uti 4days”,如下表3所示,为THUIR系统针对用户的“cipro for uti 4days”查询输出的最相关的两个候选意图,
表1
其中,用户并不是真的想去找包含“4days”这个短语的信息,其暗示了当前的状态,实为想要知道有关如何进行治疗的信息。根据其状态,可以推知他正处于治疗阶段。所以在这种情况下,结合用户当前的状态,意图1更加合适。
然而,现有的方法使用数值数据,比如“4days”,作为关键概念去挖掘与之匹配的候选意图。但是,“4days”只是这个意图的唯一数值,同一意图的其他数值则不能被该方法找到。且如图3所示,并非用户的真正意图的意图2的分布反而要高于用户此次搜索的意图1。可知,该THUIR系统也无法提供准确率较高的意图挖掘方案。
发明内容
本发明所要解决的技术问题是信息检索中搜索结果能够反映用户真正的意图的准确率较低,导致用户需要耗费大量时间和精力在大量的搜索结果中筛选。
为此目的,本发明提出了一种查询意图挖掘的方法,包括如下步骤:
A、获取搜索查询;
B、识别搜索查询中的关键概念;
C、识别所述关键概念中的数值类型;
D、对于每一个识别得到的所述数值类型,生成至少一个包含有数值查询结构的数值查询实例;
E、从数据源中挖掘与所述搜索查询相关且与至少一个步骤D中生成的所述数值查询实例同时出现的候选意图;
F、通过所述数值查询实例计算与其对应的所述候选意图的取值范围;
G、根据步骤F中计算得出的所述候选意图的取值范围对所述候选意图进行聚类;将相同取值范围的候选意图集聚合为一个意图;
H、输出所述候选意图的意图列表。
优选的,所述数值类型包括周期(period)、频度(frequency)、距离(distance)、数量(amount)和水平(level)。
优选的,所述数值查询实例包括所述关键概念、数值类型以及用以代表所述数值查询实例的实例数值。作为一种优选,该数值查询结构可以仅包括所述关键概念、数值类型以及实例数值,即该数值查询结构由所述关键概念、数值类型以及用以表示所述数值查询实例的实例数值组成。
优选的,所述实例数值取最大值、最小值、确定值和间隔值四个类型之一。
优选的,步骤D中,所述生成数值查询实例,包括:
D1、使用预设的数值集合,为每一个所述数值查询实例设定所述实例数值。
优选的,所述生成数值查询实例,进一步包括:
D21、从预设的模式集中获取与所述数值类型相关的模式;
D22、使用步骤D21中获取的模式从数据源中挖掘所述数值查询实例;
优选的,步骤E进一步包括:
E11、从数据源中检索与所述搜索查询相关的内容,且该内容至少包含一个数值查询实例;
E12、从每个步骤E11中检索出的所述搜索查询相关的内容中,根据预设的词库识别出候选意图;
E13、生成候选意图集,且所述候选意图至少与一个数值查询实例共现。
优选的,步骤F进一步包括:
F11、计算每一个所述数值查询实例的取值范围;
F12、生成包含至少一个候选意图的数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;佳能株式会社,未经清华大学;佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410101649.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抗强光芒刺视片
- 下一篇:一种人体自身抗体联检试纸条及其制备方法