[发明专利]一种多领域非协作分布式检索结果融合系统及其融合方法有效

专利信息
申请号: 201710041178.4 申请日: 2017-01-17
公开(公告)号: CN106897736B 公开(公告)日: 2020-05-22
发明(设计)人: 董守斌;陈建豪;袁华;谢一帆 申请(专利权)人: 华南理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06F16/2458
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 罗观祥
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 领域 协作 分布式 检索 结果 融合 系统 及其 方法
【权利要求书】:

1.一种多领域非协作分布式检索结果融合系统的融合方法,所述多领域非协作分布式检索结果融合系统,包括:数据处理模块,用于存储系统所需的语料数据和缓存数据,对外提供接口与其他模块交互;特征提取模块,用于从训练语料或者检索结果中提取多领域特征;模型训练模块,用于训练模型,包括模型初始化和模型学习;中央处理模块,负责分布式检索结果融合的流程处理,与其他模块进行交互,是系统核心逻辑的执行部分;相关性评分模块,用于对查询结果进行全局的相关性评分;

其特征在于,所述融合方法分有训练环节和相关度评分环节,具体包括以下步骤:

S1、训练环节

步骤S1.1、从数据处理模块获取训练语料,语料中包含多条单个查询词在多个非协作搜索引擎中查询获得的结果列表,结果中包含排名、URL、摘要以及人工标注的相关度信息;

步骤S1.2、预处理模块对要进行特征提取的训练语料进行规范化处理,处理后的训练语料发送到特征提取模块;

步骤S1.3、特征提取模块对处理后的语料提取文档、资源库以及主题这三方面的特征,提取后的特征发送到模型训练模块;

步骤S1.4、模型训练模块将提取得到的特征和对应的相关性评分输入到逻辑回归模型,训练得到的模型持久化存储到本地;

S2、相关度评分环节

步骤S2.1、获取查询返回的待融合的结果列表;

步骤S2.2、特征提取模块提取多层次特征,对结果列表中每一条结果提取文档、资源库和主题三方面的特征,提取得到的特征以向量形式发送到相关性评分模块;

步骤S2.3、相关性评分模块利用训练得到的模型对每条结果进行评分,该模块将提取得到的特征输入到模型,模型输出对应结果的相关度评分;

步骤S2.4、系统输出结果:根据步骤S2.3中获得的相关度评分,系统将结果根据相关度大小降序排列,融合成最终的结果列表以输出。

2.根据权利要求1所述的一种多领域非协作分布式检索结果融合系统的融合方法,其特征在于,所述步骤S1.3包括以下步骤:

S1.3.1、特征提取模块接收到语料,语料中数据的基本关系为:给定查询词q,分发到n个资源库Ei,i∈{1,2,…,n},每个资源库返回m个结果Dij,j∈{1,2,…,m},同时每个资源库对应一个主题Vk,k∈{1,2,…,l},l代表主题总数;

S1.3.2、对每一个查询结果Dij,利用相同URL统计其在各个资源库Ei中出现的次数,记作f1

S1.3.3、对每一个查询结果Dij,利用其排名信息rankij,构造排名特征f2,其中:

S1.3.4、对每一个资源库Ei,计算其包含的所有结果Dij对应的f1之和,记作f3,其中:

式中,m代表资源库的结果数,fj1(j∈{1,2,…,m})代表某一资源库第j个结果的f1特征;

S1.3.5、对每一个资源库Ei,计算其包含的所有Dij中,f11的结果数目,记作f4

S1.3.6、对每一个主题Vk,计算其包含的所有Ei中f3之和,记作f5

S1.3.7、对每一个主题Vk,计算其包含的所有Ei中f4之和,记作f6

S1.3.8、经过上述步骤的计算,对于每个Dij,都有对应的fx,x∈{1,2,3,4,5,6},将其组合成向量的形式(f1,f2,f3,f4,f5,f6)发送到模型训练模块;

所述步骤S1.4包括以下步骤:

S1.4.1、确定评分公式中特征的融合形式为线性融合,由步骤S1.3获得的fx,x∈{1,2,3,4,5,6}通过线性加权融合的方式计算结果评分,对于一个结果D,其评分设为S,其中:

式中,wx,x∈{1,2,3,4,5,6}代表对应特征的权重;

S1.4.2、将公式S对查询结果与不同相关度等级的相似性评分利用softmax回归模型映射到[0,1],softmax回归模型是逻辑回归模型在多分类问题上的推广,针对每个查询结果,会计算出其取得某个相关度的评分,输入特征fx,x∈{1,2,3,4,5,6}和标注的相关度评价到模型M;

S1.4.3、训练得到的模型M持久化到本地,供模型相关性评分模块使用;

所述步骤S2.3包括以下步骤:

S2.3.1、若相关性评分模块未进行初始化,则读取步骤S1.4中生成的模型M,再进入步骤S2.3.2;若已经初始化,直接进入步骤S2.3.2;

S2.3.2、由步骤S2.2提取得到的每一结果D的特征,输入到模型M;

S2.3.3、模型M输出每一个结果D的相关度评分,同一查询的所有结果的相关度评分将送入步骤S2.4。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710041178.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top