[发明专利]一种基于微博数据的多维度检索排序优化算法和工具在审

专利信息
申请号: 201410101816.3 申请日: 2014-03-19
公开(公告)号: CN103823906A 公开(公告)日: 2014-05-28
发明(设计)人: 闫丹凤;张丽莹;徐佳 申请(专利权)人: 北京邮电大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 100876 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 多维 检索 排序 优化 算法 工具
【权利要求书】:

1.一种基于微博数据的多维检索排序优化算法,其特征在于:结合微博数据特点,从检索数据特征、检索用户特征和系统应用特征三个维度,对Lucene原始检索排序结果进行综合多维度的优化调整,使优化后的排序结果更加体现数据特征、更加符合用户的真实查询意图、更加契合应用的主题。多维度检索排序优化工具定义了以下三个维度,使用多维检索排序优化算法,对基于金融微博数据Web应用进行检索排序优化的实现,最后对基于金融微博数据实现的工具进行数据测试,证明了此工具的有效性:

维度一是检索数据特征,在此维度上全面考虑数据的特点,尤其是微博数据不同于传统数据的显著区别,基于此区别对排序结果进行优化;

维度二是检索用户特征,主要探究用户的真实检索意图,使更符合用户检索意图的检索结果优先返回;

维度三是系统应用特征,针对某一应用的特定主题,对检索结果进行优化,使更契合主题的检索结果优先返回。

2.根据权利要求1所述的检索数据特征维度优化,其特征在于:定义检索数据特征(Data Attributes)为dataAttr={DA1,DA2,DA3,...DAn},其中DAi表示检索数据的不同特征,挖掘数据不同于传统网页数据的、且Lucene检索排序模块没有考虑到的附属数据信息,包括但不限于数据的发布时间、数据传播度、作者信息、数据的权威程度等等,这些附属信息将影响检索结果的综合价值,从而影响最终排序结果。在此维度的实现中,采用了具体方法计算各检索数据特征对检索结果价值的影响度。

3.根据权利要求1所述的检索用户特征维度优化,其特征在于:定义检索用户特征(User Attributes)为userAttr={UA1,UA2,UA3,...UAn},其中UAi表示用户的检索意图。用户的检索意图是指用户在进行查询时,希望检索服务能够返回的信息。针对相同的检索词,不同的用户可能有不同的检索意图。例如相同的查询词“欧洲史”,用户A想找到相关的书籍介绍,用户B希望找到相关的研究学者或者机构。在此维度的实现中,采用了具体方法计算各检索用户特征对检索结果价值的影响度。

4.根据权利要求1所述的系统应用特征维度优化,其特征在于:定义系统应用特征(App Attributes)为appAttr={AA1,AA2,AA3,...AAn},AAi表示应用的特征或者主题,不同的系统应用有不同的应用领域、主题,显然与应用主题更相关的查询结果是更有价值的,排名应该更靠前。例如,如果一个应用是检索矿产相关的信息,那么检索结果与矿产类相关度较大,就应该有更高的排名。在此维度的实现中,采用了具体方法计算各系统应用特征对检索结果价值的影响度。

5.根据权利要求2所述的检索数据特征维度优化,其特征在于基于金融微博数据,总结出微博数据相对传统网页数据的不同的特点,dataAttr集合为DA1=文本长度,DA2=发布时间,DA3=评论数+转发数,DA4=作者粉丝数,DA5=作者已发布微博数;以上五个关键属性,都是越大越好,针对在关键属性上表现更加优异的检索结果,其在最后的返回页面中应该更加靠前。分别取出在五个属性上表现最好的K条微博,形成5个集合,每个集合K条数据。按照具体公式计算检索数据特征维度优化得分。

6.根据权利要求3所述的检索用户特征维度优化,其特征在于利用两种方法分析用户意图,实现具体的优化:

一种是基于检索标签的优化,利用标签表明用户的意图,检索用户需要额外给出一些辅助信息,例如上例中的检索关键词“股票书”,“书”就属于这类辅助信息,表明用户想要查找的是与股票相关的书,而非股票大盘走势等等。

另一种是基于用户日志的优化,记录所有注册用户的查询日志,其中保存用户查询的关键词、点击行为以及停留的时间。认为点击次数越多、停留时间越长的检索结果更加符合用户检索意图,基于此建立某一用户检索关键词与其检索意图的关联,并利用此关联对相似查询进行优化处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410101816.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top