[发明专利]一种确定关键词上下文窗口的混合方法在审
申请号: | 201610833587.3 | 申请日: | 2016-09-20 |
公开(公告)号: | CN106610943A | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 金平艳;胡成华 | 申请(专利权)人: | 四川用联信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 关键词 上下文 窗口 混合 方法 | ||
技术领域
本发明涉及语义网络技术领域,具体涉及一种确定关键词上下文窗口的混合方法。
背景技术
自从进入21世纪以来,全球的互联网行业进入了一个高速发展的新时期,各种新技术不断涌现出来。作为联系计算机与人之间重要技术的自然语言处理也取得了长足的发展。国内外对词语语义相似度的计算方法大体可以分为两类:第一,基于语义词典的词语语义相似度计算方法,这种方法简单有效、易于理解,但是它依赖于比较完备的按照概念间结构层次关系组织的大型语义词典;第二,基于语料库的词语语义相似度计算方法,这种方法利用大规模语料库,将词语的上下文信息作为语义相似度计算的参照依据。基于语料库的方法建立在两个词语语义相似当且仅当它们处于相似的上下文环境中这一假设的基础上。词语的上下文是语料库语言学中自然语言知识获取和解决自然语言处理中多种实际应用问题依靠的资源和基础,但上下文“窗口”开多大为宜,为克服当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足以及关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响,本发明提供一种确定关键词上下文窗口的混合方法。
发明内容
针对当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足以及关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响,本发明提供一种确定关键词上下文窗口的混合方法。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:初始化统计方法模块,即语料库或文本。
步骤2:将关键词C输入初始化统计方法模块或文本中。
步骤3:分别求解关键词C相邻的上下文本中每个位置的权重贡献值
weight′(C,Cij∈(1,2,…2n))。
步骤4:对关键词C语境中上下文词位置的权重贡献值
weight′(C,Cij∈(1,2,…2n))进行归一化曲线处理。
步骤5:基于上下文信息损失量计算关键词C语境中上下文窗口的左右窗口n值。
步骤6:在步骤5关键词C语境中上下文窗口的左右窗口n值条件下,基于上下文成分关系计算关键词语境中上下文窗口的左右窗口n′左、n′右值。
本发明有益效果是:
1、对上下文语境有效范围的确定提供了非常有价值的定量化的描述,克服了前人主观描述的不足。
2、上下文对关键词的描述能力相对位置由近及远逐渐递减,符合人们一般认识。
3、为更好的解决词语、句子相似度计算提供了极为有价值的理论基础。
4、权重贡献值weight(C,Cij∈(1,2,…2n))的线性与信噪比要更好,易于后续计算简便。
5、权重贡献值weight(C,Cij∈(1,2,…2n))的归一化曲线准确率更高。
6、考虑了关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响。
附图说明
表1-j映射到weight(C,Cij∈(1,2,…2n))的离散表格
图1一种确定关键词上下文窗口的混合方法结构流程图
图2上下文位置权重贡献值离散图与归一化处理后的连续函数f(-j)曲线图
具体实施方式
针对当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足以及关键词左右窗口中的句子成分关系对上下文有效窗口界定的影响,结合图1对本发明进行了详细说明,其具体实施步骤如下:
步骤1:初始化统计方法模块,即语料库或文本。
步骤2:将关键词C输入初始化统计方法模块或文本中。
步骤3:分别求解关键词C相邻的上下文本中每个位置的相对权重贡献值weight′(C,Cij∈(1,2,…2n)),需先知位置信息Jsx、关键词权重值weight(C)与上下文位置权重值weight(C,Cij∈(1,2,…2n)),其具体计算过程如下:
3.1)先假设关键词C上下文语境的位置信息Jsx
在一定规模语料库的基础上,选取一定规模和具有一定覆盖面的关键词,并从语料中提取每个关键词C上下文左右各n个位置的上下文词语构成其“关键词上下文矩阵Jsx”,其矩阵如下所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610833587.3/2.html,转载请声明来源钻瓜专利网。