[发明专利]自适应个性化信息检索系统及方法有效

专利信息
申请号: 201210244519.5 申请日: 2012-07-16
公开(公告)号: CN102779193A 公开(公告)日: 2012-11-14
发明(设计)人: 杨沐昀;王晓春;李生;齐浩亮;赵铁军 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 哈尔滨市松花江专利商标事务所 23109 代理人: 张宏威
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自适应 个性化 信息 检索系统 方法
【说明书】:

技术领域

发明涉及计算机信息检索技术。

背景技术

网络信息的浩瀚和相关技术的飞速发展使得人们越来越频繁的使用搜索引擎。根据中国互联网网络信息中心(CNNIC)的统计,搜索引擎(search engine)成为最普遍的辅助人们检索Web信息的工具。

近年来,为了提高信息检索的精度,方便用户进行检索,改善用户的搜索体验,信息检索领域涌现出了许多优秀的信息检索模型并取得了良好的效果。其中一个主要改进就是建立用户兴趣模型,目的是在保证查询和文档的内容相关性的同时,同时保证文档和用户兴趣的相关性。用户兴趣按照时间跨度区分为长期兴趣和短期兴趣。短期兴趣来自于一个查询会话(session)的搜索历史。基于短期兴趣的个性化检索研究中,Cao等人(2008;2009)将查询会话中的查询和点击看做有序数据,采用HMM模型和改良HMM模型(vlHMM)、以及CRF模型进行训练,预测查询意图。Zhu和Mishne(2009)对用户查询会话过程(session,简称查询会话)进行聚类,然后将全部查询会话产生的重要性聚合作为全局的重要性,提出用于衡量网页或者网站重要性的ClickRank模型。除了这些直接对查询会话进行建模的研究方法之外,也有研究者将查询会话作为排序模型中的特征。Xiang(2010)等人将多种查询修改关系作为特征加到RankSVM中。此外,传统检索模型也可以应用于用户短期兴趣研究。Chen(2009)等人在传统语言模型的基础上结合了当前查询和点击文档摘要的相似度。不同的是,包含长期兴趣的个性化检索模型绝大多数基于传统信息检索模型。Tan(2006)在语言模型的基础上提出若干计算与当前查询相关的历史信息的方法,该检索模型对新旧查询都有积极作用。Dou(2007)等人分别在向量空间模型和语言模型上进行了类似实验。Ahn(2008)等人根据Task把多个查询会话串联起来,基于BM25概率模型建立了体现用户长期兴趣的个性化检索系统。

上述这些基于用户兴趣的个性化检索模型存在一个显著的缺点:模型一经训练完成后,模型内部参数都是固定值,相对固定不变。实际上,不同的检索情况下信息需求各有差异,采用统一的方式来处理各种用户检索,难免缺少灵活性。以基于查询扩展的个性化检索模型为例,用户模型结合与当前查询模型结合,以往研究中通常设定两部分的权重为不变的常数。但是,如果当前查询的长度很短,用户的查询意图表达不够清楚或者不够完整,那么此时应该加强用户模型的作用,降低当前查询模型的重要性。反之,如果当前查询长度较长,查询意图表达清晰,那么用户模型起到的作用反而不重要了。因此,一种具有自适应的动态检索模型理论上可以进一步改善用户的个性化检索体验,是当前检索系统所缺乏的关键特性。

一个理想的动态个性化检索模型应该以客观检索应用为依据,在设计和实现检索模型时考虑如下几个方面:

1.用户分布

客观世界中用户是随机分布的,而以往研究往往对用户分布提出假设。Radlinski(2007)假设用户是从来自一个数目固定的人群的随机选择。第二年,认为用户总是在一个确定的固定人群里。已有研究证实用户的行为是不规律的(Agichtein et al.,2006),应尽量避免对用户分布做任何假设。

2.用户兴趣

用户兴趣也是多变的。Belkin(1997)很早就发现在用户查找信息的时候,用户检索需求会发生变化,Sofia Stamou(2009)也认为用户兴趣会随着时间变化。

3.查询能力

用户与搜索引擎交互的过程也是一个学习使用搜索引擎的过程(Shen et al.,2005)。用户根据返回结果的质量和满意程度,重新提交新的查询。也就是说,用户在与搜索引擎的交互过程会影响到用户下一次提交的查询。随着用户搜索经验的丰富,用户构建查询的能力也在增强。因此各个历史查询的重要性是随着时间变化的,越新的查询重要性越高(BinTan et al.,2006;Dou et al.,2007)。

发明内容

为了对于分布不规律的用户的动态检索需求及时进行捕捉,伴随用户与搜索引擎的交互而及时更新检索模型的目的,本发明设计了一种自适应个性化信息检索系统及方法。

本发明所述的自适应个性化信息检索系统包括:

用于根据当前查询信息、结合历史查询信息和历史点击信息构成特征矩阵,还用于根据特征矩阵获得训练参数预测模型的数据输入子系统;

用于根据特征矩阵训练并应用参数预测模型、获得预测参数的参数训练和预测子系统;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210244519.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top