[发明专利]基于权值比较与挖掘的跨语言译后前件扩展方法有效

专利信息
申请号: 201811646503.0 申请日: 2018-12-30
公开(公告)号: CN109684463B 公开(公告)日: 2022-11-22
发明(设计)人: 黄名选 申请(专利权)人: 广西财经学院
主分类号: G06F16/332 分类号: G06F16/332
代理公司: 广西南宁公平知识产权代理有限公司 45104 代理人: 黄春莲
地址: 530000 广西壮族*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 比较 挖掘 语言 译后前件 扩展 方法
【说明书】:

发明公开了基于权值比较与挖掘的跨语言译后前件扩展方法,首先将源语言查询翻译为目标语言并检索目标语言文档,构建初检用户相关文档并预处理,通过权值比较在文本文档索引库挖掘含有原查询词项的特征词频繁项集,用项集关联度及项集的项目权值最大者或最大项目权值对候选项集剪枝,用卡方分析‑置信度评价框架从频繁项集挖掘含有原查询词项的特征词关联规则,将后件是原查询词项集合的关联规则前件项集作为扩展词,完成跨语言译后前件扩展。本发明能克服现有加权关联规则挖掘方法的缺陷,提高挖掘效率,挖掘与原查询相关的译后前件扩展词,提高和改善跨语言检索性能,在跨语言搜索引擎和web跨语言检索系统中具有较高的应用价值和推广前景。

技术领域

本发明属于信息检索领域,具体是基于权值比较与挖掘的跨语言译后前件扩展方法。

背景技术

当前,网络信息资源迅猛增长,成为了隐含巨大经济价值和研究价值的网络大数据。面对具有多语言性特点的网络信息资源,网络用户以自己熟悉的语言的查询表达式在网络大数据资源中跨语言检索其他语言信息资源时,经常遇到的查询主题严重漂移和词不匹配等问题,跨语言查询扩展是解决这些问题的关键技术之一。

跨语言查询扩展是提高和改善跨语言信息检索性能的核心技术之一,能解决跨语言信息检索中长期困扰的查询主题严重漂移和词不匹配等问题,指的是在跨语言信息检索过程中,采用某种策略发现与原查询相关的扩展词,扩展词和原查询组合得到新查询并再次检索的过程。根据跨语言信息检索的不同阶段,跨语言查询扩展分为查询译前扩展、查询译后扩展和混合式查询扩展等三种。查询译前扩展模型指的是在源语言查询翻译为目标语言之前,采用某些策略从其他源语言文档材料(或者初检源语言文档)中获得源语言扩展词实现译前扩展,然后进行查询翻译,再检索目标语言文档。查询译后扩展发生在源语言查询翻译为目标语言之后,从跨语言初检目标语言文档或者其他目标语言文档材料中获取目标语言扩展词实现译后扩展,然后再次检索目标语言文档。混合式查询扩展的实现要经过三次检索,即首先进行查询译前扩展得到了源语言扩展词实现译前扩展后进行跨语言检索,在此基础上再进行查询译后扩展得到目标语言扩展词,和译后的目标语言查询组合实现混合式扩展,最后再进行第三次检索。

近年来,学者们对跨语言查询扩展方法开展了卓有成效的研究,特别是对基于关联模式挖掘的跨语言查询译后扩展方法的研究,取得了丰富的研究成果,例如,吴丹等提出的基于伪相关反馈的跨语言查询译后扩展方法(吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,2010,29(2):232-239.),黄名选提出基于加权关联模式挖掘的跨语言查询扩展方法(黄名选.基于加权关联模式挖掘的越-英跨语言查询扩展[J].情报学报,2017,36(3):307-318.,黄名选.完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展.小型微型计算机系统,2017,38(8):1783-1791.),等等,但还没有最终完全解决跨语言信息检索中长期困扰的查询主题严重漂移和词不匹配问题。

发明内容

本发明提出基于权值比较与挖掘的跨语言译后前件扩展方法,应用于跨语言信息检索领域,解决跨语言信息检索中查询主题漂移和词不匹配问题,适用于实际的跨语言搜索引擎和web跨语言信息检索系统,提高跨语言检索性能。

本发明采用如下技术方案:

基于权值比较与挖掘的跨语言译后前件扩展方法,包括下列步骤:

步骤1:源语言查询跨语言首次检索目标语言文档,构建和预处理初检用户相关文档集,具体步骤如下:

(1.1)源语言用户查询通过机器翻译系统译为目标语言,采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档。

机器翻译系统是:微软必应机器翻译接口Microsoft Translator API,或者,谷歌机器翻译接口,等等。

(1.2)通过对初检前列目标语言文本文档进行相关性判断构建初检用户相关文档集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811646503.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top