[发明专利]基于矩阵加权关联规则的中英跨语言查询前件扩展方法有效
| 申请号: | 201711435247.6 | 申请日: | 2017-12-26 |
| 公开(公告)号: | CN108133022B | 公开(公告)日: | 2021-09-10 |
| 发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33 |
| 代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
| 地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 矩阵 加权 关联 规则 中英跨 语言 查询 扩展 方法 | ||
本发明公开了基于矩阵加权关联规则的中英跨语言查询前件扩展方法,首先借助机器翻译将中文查询式翻译为英文并检索英文文档,用户对初检前列英文文档进行相关性判断得到初检相关英文文档集,采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度‑置信度‑兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则,从这些关联规则中提取其前件作为跨语言译后扩展词实现中英跨语言查询译后前件扩展。实验结果表明,本发明能有效地减少跨语言信息检索中长期存在的查询主题严重漂移和词不匹配等问题,提高和改善跨语言信息检索性能,具有很好的应用价值和推广前景。
技术领域
本发明属于网络信息检索领域,具体是一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法。
背景技术
随着互联网技术的普及,具有多语言性特点的网络信息资源迅猛增长,成为了隐含巨大的经济价值和研究价值的网络大数据。如何以用户熟悉的查询语言表达式在大数据资源中检索其他语言的信息资源,以满足更多的信息需求,促使跨语言信息检索技术成为当前网络用户急需的技术。跨语言信息检索过程比单语言检索复杂,遇到的问题更严重,主要表现为:受翻译质量的影响,查询主题严重漂移,词不匹配以及查询项翻译歧义和多义性尤为严重,等等。跨语言查询扩展是解决上述问题的关键技术之一。多年来,各国学者从不同角度和方向对跨语言查询扩展进行深入研究和讨论,取得了丰富的理论成果,但还没有最终完全解决跨语言信息检索中查全率和查准率问题。鉴于此,本发明提出了一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法。
发明内容
本发明提出一种基于矩阵加权关联规则的中英跨语言查询前件扩展方法,适用于跨语言信息检索领域,能有效地减少跨语言信息检索中查询主题漂移和词不匹配等问题,提高和改善跨语言检索性能。
本发明采用如下技术方案解决上述技术问题:
基于矩阵加权关联规则的中英跨语言查询前件扩展方法,首先借助机器翻译将中文查询翻译为英文查询并检索英文文档,用户对初检前列英文文档进行相关性判断得到初检相关英文文档集,对初检相关英文文档集进行预处理,构建初检英文文档库和特征词库;采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则,从所述关联规则中提取其前件作为中英跨语言译后扩展词。
所述检索英文文档为采用向量空间模型进行检索得到英文文档集。
所述对初检相关英文文档集进行预处理的方法为:去除英文停用词,采用Porter程序进行英文特征词词干提取,计算英文特征词权值;然后构建初检英文文档库和特征词库;所述计算英文特征词权值按如下公式(1)进行计算:
式(1)中,N表示初检相关文档集中总的文档数量,wij表示初检相关英文文档di中特征词tj的权值,dfj表示含有英文特征词tj的英文文档数量,tfj,i表示英文特征词tj在文档di中的出现次数,即词频,max(tfi)表示初检相关英文文档di中最大的词频值,即文档di的所有英文特征词词频中的最大者,函数lg(N)代表N的对数,lg(dfj)代表dfj的对数。
所述采用基于项频度和权值的矩阵加权关联模式支持度计算方法以及基于支持度-置信度-兴趣度的矩阵加权关联模式挖掘方法对初检相关英文文档集挖掘后件是译后原查询词项的矩阵加权关联规则的具体步骤如下:
(1)挖掘英文特征词矩阵加权频繁1_项集L1:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711435247.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据异常检测方法及装置
- 下一篇:一种基于区块链技术的汽车检测信息系统





