[发明专利]一种多领域非协作分布式检索结果融合系统及其融合方法有效
申请号: | 201710041178.4 | 申请日: | 2017-01-17 |
公开(公告)号: | CN106897736B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 董守斌;陈建豪;袁华;谢一帆 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/2458 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 协作 分布式 检索 结果 融合 系统 及其 方法 | ||
本发明公开了一种多领域非协作分布式检索结果融合系统及其融合方法,该系统包括:数据处理模块,用于存储系统所需的语料数据和缓存数据,对外提供接口与其他模块交互;特征提取模块,用于从训练语料或者检索结果中提取多领域特征;模型训练模块,用于训练模型,包括模型初始化和模型学习;中央处理模块,负责分布式检索结果融合的流程处理,与其他模块进行交互,是系统核心逻辑的执行部分;相关性评分模块,用于对查询结果进行全局的相关性评分。本发明能解决非协作环境下不同检索结果因检索模型差异而无法直接比较的问题及启发式方法调参麻烦的问题。
技术领域
本发明涉及分布式检索的技术领域,尤其是指一种多领域非协作分布式检索结果融合系统及其融合方法。
背景技术
在分布式检索中,呈现给用户的检索结果好坏与融合来源不同资源库的查询结果的方法息息相关,尤其当结果来源于非协作的搜索引擎。所谓非协作的搜索引擎,即搜索引擎之间采用不同的检索模型。在此情况下,不同来源的检索结果无法根据排名或得分进行直接的比较。
目前的非协作环境下的分布式检索结果融合系统,较多使用简单的线性融合方式,模型参数采用启发式方法确定。这类方法虽然计算速度较快,有利于系统在线运行,但准确度较低,启发式方法调参麻烦。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种多领域非协作分布式检索结果融合系统及其融合方法,该系统基于机器学习方法,通过离线计算得到的模型,对不同来源的检索结果进行评分,最终得到统一的检索结果列表,能解决非协作环境下不同检索结果因检索模型差异而无法直接比较的问题;该方法基于softmax回归模型,通过提取检索结果中多领域特征进行训练,在保留了线性融合方式计算速度快的优点外,提高了准确度,解决了启发式方法调参麻烦的问题。
为实现上述目的,本发明所提供的技术方案如下:
一种多领域非协作分布式检索结果融合系统,包括:
数据处理模块,用于存储系统所需的语料数据和缓存数据,对外提供接口与其他模块交互;
特征提取模块,用于从训练语料或者检索结果中提取多领域特征;
模型训练模块,用于训练模型,包括模型初始化和模型学习;
中央处理模块,负责分布式检索结果融合的流程处理,与其他模块进行交互,是系统核心逻辑的执行部分;
相关性评分模块,用于对查询结果进行全局的相关性评分。
所述数据处理模块包括:
数据存储子模块,用于存放数据;
数据预处理子模块,用于对训练数据进行预处理。
所述特征提取模块包括:
文档特征提取子模块,用于针对每个查询结果提取对应的文档特征;
资源库特征提取子模块,用于针对每个资源库提取对应的资源库特征;
主题特征提取子模块,用于针对每个主题提取查询结果对应的主题特征。
所述模型训练模块包括:
模型初始化子模块,用于模型准备,初始化模型所需要的参数;
模型学习子模块,用于管理模型的训练学习过程。
上述多领域非协作分布式检索结果融合系统的融合方法,分有训练环节和相关度评分环节,具体包括以下步骤:
S1、训练环节
步骤S1.1、从数据处理模块获取训练语料,语料中包含多条单个查询词在多个非协作搜索引擎中查询获得的结果列表,结果中包含排名、URL、摘要以及人工标注的相关度信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710041178.4/2.html,转载请声明来源钻瓜专利网。