[发明专利]一种基于微博数据的多维度检索排序优化算法和工具在审
申请号: | 201410101816.3 | 申请日: | 2014-03-19 |
公开(公告)号: | CN103823906A | 公开(公告)日: | 2014-05-28 |
发明(设计)人: | 闫丹凤;张丽莹;徐佳 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 多维 检索 排序 优化 算法 工具 | ||
技术领域
本发明涉及一种多维度检索排序优化算法,从检索数据特征、检索用户特征和系统应用特征三个维度对Lucene的检索排序结果进行优化,实现了基于金融微博数据的Web系统的检索优化工具。
背景技术
社交网络数据正成为人们重要的消息来源,而微博数据在社交数据中占有非常重要的地位,面对互联网上的海量数据,利用数据检索系统进行信息检索是必要和重要的。针对某几个关键词,数据检索系统通过查找索引,返回包含这些关键词的结果数据。一般,数据检索系统会利用一定的公式计算这些结果数据与检索关键词的相关度,相关度高的则以较靠前的位置返回给用户。例如,在谷歌中输入关键词“上海自贸区”,进行检索,返回结果的第一条数据就应该是按照谷歌的数据检索系统的得分公式计算出来的、与检索关键词相关度最高的结果,往下检索结果与检索关键词的相关度依次递减。
这个检索结果的排序具有重要的意义,因为调查表明大部分用户只会查看前两页或者前30条检索结果,而且前10条检索结果是查看的重点,直接关系到用户对此检索服务的用户体验和评价。所以,如何保证检索结果的有效排序,使对用户更有价值的检索结果排在前位,这是数据检索领域的一个研究热点。
微博数据数据具有不同于传统数据的特点,例如数据长度一般有限制、数据具有较强的时效性、价值密度比较低、具有许多附加信息属性等等,这些数据特点对检索结果的排序具有重要的作用。例如,针对检索出的微博数据,具有相同的检索关键词信息,如果某一条微博的发布时间更近,应该认为这条微博具有更好的时效性,也具有更高的价值,排名应该靠前。显然,单一的词频 位置加权的检索排序算法不能满足以上的需求。
同时,除了数据特点之外,用户检索行为的特点也是检索结果排序需要考虑的重要方面。针对相同的关键词,用户的真实检索意图可能是不同的,还是“上海自贸区”这个检索词,有的用户希望找到的最近自贸区发生的新闻,而有的用户希望检索自贸区的相关位置。如果能够有效识别出用户的检索意图,就可以将更加符合用户意图的检索结果排位放前,这无疑会改善用户的检索体验。
再次,大部分检索服务是作为一个大系统的一部分进行工作的,它依赖于这个系统中已经获取并存储的数据,一般情况下,这个大系统有某一个特定方向的主题,例如金融、科技等等。系统的主要用户既然选择使用这个系统的检索服务,在很大概率上是希望能够检索到与系统主题相关的数据。基于以上的假设,如果检索结果与系统的主题相关,它应该是更有价值的,排名也应该更靠前。
发明内容
有鉴于此,本发明的目标是针对社交网络中的微博数据检索,提出一种多维度检索排序优化算法和工具,此算法基于Lucene简单词频位置加权排序算法,综合考虑检索数据特点、用户检索行为特点和系统应用特点,将排序结果进行优化。优化后的检索排序结果,将更加体现微博数据的数据特征,更加契合用户的真实检索意图,同时也更加贴近系统应用的主题。此多维度检索排序优化工具,完成基于金融微博数据的实现。本算法的设计与工具的实现,将会增加检索结果排名前列的数据的综合价值,将会极大的提高数据检索的用户体验。
本发明提出的多维度检索排序优化算法将在Lucene检索结果的基础上,对一个大系统的检索模块的排序结果进行优化。优化主要从三个维度进行:检索 数据特征,检索用户特征,系统应用特征。三个维度优化模块的具体定义如下:
维度一数据特征优化模块:检索数据特征表示被检索数据的特征,包括长度、语义、附属信息等等。定义检索数据特征(Data Attributes)为dataAttr={DA1,DA2,DA3,...DAn},其中DAi表示检索数据的不同特征,主要挖掘数据不同于传统网页数据的且Lucene检索排序模型没有考虑到的附属数据信息,例如数据的发布时间、数据传播度、作者信息、数据的权威程度等等。
维度二用户特征优化模块:检索用户特征表示用户的真实检索意图。定义检索用户特征(User Attributes)为userAttr={UA1,UA2,UA3,...UAn},其中UAi表示用户的检索意图。用户的查询意图是指用户在进行查询时,希望搜索引擎服务能够返回的信息。挖掘不同用户的真实意图,针对相同的检索词,不同的用户可能有不同的检索意图。例如相同的查询词“欧洲史”,用户A想找到相关的书籍介绍,用户B希望找到相关的研究学者或者机构。可以采用多种方法,例如要求用户输入额外信息来表明检索意图,或者挖掘用户查询历史推测用户可能的检索意图,从而返回给用户更加符合需求的检索结果。可以借助于用户查询日志或者查询标签完成用户真实检索意图的挖掘。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410101816.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置