[发明专利]一种基于微博数据的多维度检索排序优化算法和工具在审
| 申请号: | 201410101816.3 | 申请日: | 2014-03-19 |
| 公开(公告)号: | CN103823906A | 公开(公告)日: | 2014-05-28 |
| 发明(设计)人: | 闫丹凤;张丽莹;徐佳 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据 多维 检索 排序 优化 算法 工具 | ||
1.一种基于微博数据的多维检索排序优化算法,其特征在于:结合微博数据特点,从检索数据特征、检索用户特征和系统应用特征三个维度,对Lucene原始检索排序结果进行综合多维度的优化调整,使优化后的排序结果更加体现数据特征、更加符合用户的真实查询意图、更加契合应用的主题。多维度检索排序优化工具定义了以下三个维度,使用多维检索排序优化算法,对基于金融微博数据Web应用进行检索排序优化的实现,最后对基于金融微博数据实现的工具进行数据测试,证明了此工具的有效性:
维度一是检索数据特征,在此维度上全面考虑数据的特点,尤其是微博数据不同于传统数据的显著区别,基于此区别对排序结果进行优化;
维度二是检索用户特征,主要探究用户的真实检索意图,使更符合用户检索意图的检索结果优先返回;
维度三是系统应用特征,针对某一应用的特定主题,对检索结果进行优化,使更契合主题的检索结果优先返回。
2.根据权利要求1所述的检索数据特征维度优化,其特征在于:定义检索数据特征(Data Attributes)为dataAttr={DA1,DA2,DA3,...DAn},其中DAi表示检索数据的不同特征,挖掘数据不同于传统网页数据的、且Lucene检索排序模块没有考虑到的附属数据信息,包括但不限于数据的发布时间、数据传播度、作者信息、数据的权威程度等等,这些附属信息将影响检索结果的综合价值,从而影响最终排序结果。在此维度的实现中,采用了具体方法计算各检索数据特征对检索结果价值的影响度。
3.根据权利要求1所述的检索用户特征维度优化,其特征在于:定义检索用户特征(User Attributes)为userAttr={UA1,UA2,UA3,...UAn},其中UAi表示用户的检索意图。用户的检索意图是指用户在进行查询时,希望检索服务能够返回的信息。针对相同的检索词,不同的用户可能有不同的检索意图。例如相同的查询词“欧洲史”,用户A想找到相关的书籍介绍,用户B希望找到相关的研究学者或者机构。在此维度的实现中,采用了具体方法计算各检索用户特征对检索结果价值的影响度。
4.根据权利要求1所述的系统应用特征维度优化,其特征在于:定义系统应用特征(App Attributes)为appAttr={AA1,AA2,AA3,...AAn},AAi表示应用的特征或者主题,不同的系统应用有不同的应用领域、主题,显然与应用主题更相关的查询结果是更有价值的,排名应该更靠前。例如,如果一个应用是检索矿产相关的信息,那么检索结果与矿产类相关度较大,就应该有更高的排名。在此维度的实现中,采用了具体方法计算各系统应用特征对检索结果价值的影响度。
5.根据权利要求2所述的检索数据特征维度优化,其特征在于基于金融微博数据,总结出微博数据相对传统网页数据的不同的特点,dataAttr集合为DA1=文本长度,DA2=发布时间,DA3=评论数+转发数,DA4=作者粉丝数,DA5=作者已发布微博数;以上五个关键属性,都是越大越好,针对在关键属性上表现更加优异的检索结果,其在最后的返回页面中应该更加靠前。分别取出在五个属性上表现最好的K条微博,形成5个集合,每个集合K条数据。按照具体公式计算检索数据特征维度优化得分。
6.根据权利要求3所述的检索用户特征维度优化,其特征在于利用两种方法分析用户意图,实现具体的优化:
一种是基于检索标签的优化,利用标签表明用户的意图,检索用户需要额外给出一些辅助信息,例如上例中的检索关键词“股票书”,“书”就属于这类辅助信息,表明用户想要查找的是与股票相关的书,而非股票大盘走势等等。
另一种是基于用户日志的优化,记录所有注册用户的查询日志,其中保存用户查询的关键词、点击行为以及停留的时间。认为点击次数越多、停留时间越长的检索结果更加符合用户检索意图,基于此建立某一用户检索关键词与其检索意图的关联,并利用此关联对相似查询进行优化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410101816.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





