[发明专利]一种基于微博数据的多维度检索排序优化算法和工具在审

专利信息
申请号: 201410101816.3 申请日: 2014-03-19
公开(公告)号: CN103823906A 公开(公告)日: 2014-05-28
发明(设计)人: 闫丹凤;张丽莹;徐佳 申请(专利权)人: 北京邮电大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 多维 检索 排序 优化 算法 工具
【说明书】:

技术领域

发明涉及一种多维度检索排序优化算法,从检索数据特征、检索用户特征和系统应用特征三个维度对Lucene的检索排序结果进行优化,实现了基于金融微博数据的Web系统的检索优化工具。 

背景技术

社交网络数据正成为人们重要的消息来源,而微博数据在社交数据中占有非常重要的地位,面对互联网上的海量数据,利用数据检索系统进行信息检索是必要和重要的。针对某几个关键词,数据检索系统通过查找索引,返回包含这些关键词的结果数据。一般,数据检索系统会利用一定的公式计算这些结果数据与检索关键词的相关度,相关度高的则以较靠前的位置返回给用户。例如,在谷歌中输入关键词“上海自贸区”,进行检索,返回结果的第一条数据就应该是按照谷歌的数据检索系统的得分公式计算出来的、与检索关键词相关度最高的结果,往下检索结果与检索关键词的相关度依次递减。 

这个检索结果的排序具有重要的意义,因为调查表明大部分用户只会查看前两页或者前30条检索结果,而且前10条检索结果是查看的重点,直接关系到用户对此检索服务的用户体验和评价。所以,如何保证检索结果的有效排序,使对用户更有价值的检索结果排在前位,这是数据检索领域的一个研究热点。 

微博数据数据具有不同于传统数据的特点,例如数据长度一般有限制、数据具有较强的时效性、价值密度比较低、具有许多附加信息属性等等,这些数据特点对检索结果的排序具有重要的作用。例如,针对检索出的微博数据,具有相同的检索关键词信息,如果某一条微博的发布时间更近,应该认为这条微博具有更好的时效性,也具有更高的价值,排名应该靠前。显然,单一的词频 位置加权的检索排序算法不能满足以上的需求。 

同时,除了数据特点之外,用户检索行为的特点也是检索结果排序需要考虑的重要方面。针对相同的关键词,用户的真实检索意图可能是不同的,还是“上海自贸区”这个检索词,有的用户希望找到的最近自贸区发生的新闻,而有的用户希望检索自贸区的相关位置。如果能够有效识别出用户的检索意图,就可以将更加符合用户意图的检索结果排位放前,这无疑会改善用户的检索体验。 

再次,大部分检索服务是作为一个大系统的一部分进行工作的,它依赖于这个系统中已经获取并存储的数据,一般情况下,这个大系统有某一个特定方向的主题,例如金融、科技等等。系统的主要用户既然选择使用这个系统的检索服务,在很大概率上是希望能够检索到与系统主题相关的数据。基于以上的假设,如果检索结果与系统的主题相关,它应该是更有价值的,排名也应该更靠前。 

发明内容

有鉴于此,本发明的目标是针对社交网络中的微博数据检索,提出一种多维度检索排序优化算法和工具,此算法基于Lucene简单词频位置加权排序算法,综合考虑检索数据特点、用户检索行为特点和系统应用特点,将排序结果进行优化。优化后的检索排序结果,将更加体现微博数据的数据特征,更加契合用户的真实检索意图,同时也更加贴近系统应用的主题。此多维度检索排序优化工具,完成基于金融微博数据的实现。本算法的设计与工具的实现,将会增加检索结果排名前列的数据的综合价值,将会极大的提高数据检索的用户体验。 

本发明提出的多维度检索排序优化算法将在Lucene检索结果的基础上,对一个大系统的检索模块的排序结果进行优化。优化主要从三个维度进行:检索 数据特征,检索用户特征,系统应用特征。三个维度优化模块的具体定义如下: 

维度一数据特征优化模块:检索数据特征表示被检索数据的特征,包括长度、语义、附属信息等等。定义检索数据特征(Data Attributes)为dataAttr={DA1,DA2,DA3,...DAn},其中DAi表示检索数据的不同特征,主要挖掘数据不同于传统网页数据的且Lucene检索排序模型没有考虑到的附属数据信息,例如数据的发布时间、数据传播度、作者信息、数据的权威程度等等。 

维度二用户特征优化模块:检索用户特征表示用户的真实检索意图。定义检索用户特征(User Attributes)为userAttr={UA1,UA2,UA3,...UAn},其中UAi表示用户的检索意图。用户的查询意图是指用户在进行查询时,希望搜索引擎服务能够返回的信息。挖掘不同用户的真实意图,针对相同的检索词,不同的用户可能有不同的检索意图。例如相同的查询词“欧洲史”,用户A想找到相关的书籍介绍,用户B希望找到相关的研究学者或者机构。可以采用多种方法,例如要求用户输入额外信息来表明检索意图,或者挖掘用户查询历史推测用户可能的检索意图,从而返回给用户更加符合需求的检索结果。可以借助于用户查询日志或者查询标签完成用户真实检索意图的挖掘。 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410101816.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top