[发明专利]基于语义关系约束的词向量修正方法及计算系统在审
申请号: | 202110273206.1 | 申请日: | 2021-03-15 |
公开(公告)号: | CN112966523A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 杨东强;阴艳芹 | 申请(专利权)人: | 山东建筑大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F40/247;G06F40/242;G06K9/62;G06N3/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 关系 约束 向量 修正 方法 计算 系统 | ||
本发明提供一种基于语义关系约束的词向量修正方法及计算系统,该方法包括以下步骤:从WordNet、Roget语义词典中抽取具有对称关系的同义词、反义词约束集,以及具有非对称关系的直接上位/下位词约束集作为外部知识源更新词嵌入向量;随机输入两个要计算相似性的词汇,即可计算出该对词汇的相似度。该词汇语义相似性计算系统包括输入单元、初始化单元、计算单元和输出单元。本发明基于外部知识源提供的词汇语义关系约束来更新已有的神经网络词嵌入向量,进而用于词汇语义相似性计算。更新速度、词嵌入向量语义更新效果都明显好于现有技术,在计算词汇语义相似性中准确率也更高。
技术领域
本发明涉及一种采用语义词典中语义关系约束集对神经网络词嵌入向量进行修正的方法和计算词汇相似性的系统,尤其是利用语义层次结构中具有非对称关系的直接上位/下位词来约束词嵌入向量之间的语义距离,属于自然语言处理语义计算领域。
背景技术
分布式语义表示(Distributional Representations)是自然语言处理的重要研究内容之一。分布式表示是基于Harris的分布式假设,即如果两个词的上下文相似,那么这两个词也是相似的。上下文的类型可以为相邻词,所在句子或所在的文档等。这样我们就可以通过词与其上下文的共现矩阵来进行词的表示,即把共现矩阵的每一行看作对应词的向量表示。神经网络词嵌入的主要用途有三种:(1)在嵌入空间中找到最近邻;(2)作为有监督的机器学习模型的输入;(3)挖掘变量间的关系。利用神经网络嵌入,我们能将Wikipedia中的37000多本书转换为至多包含50个数值的向量。神经网络嵌入还克服了独热编码的局限性。
通过学习上下文中单词共现关系得到的神经网络词嵌入模型在相同上下文中出现的词通常具有相同的含义。神经网络词嵌入模型的表达能力还需要进一步提高。
词语向量表达(word vector representation)是机器翻译、文本分类、情感分析等自然语言处理(natural language processing NLP)下游应用中的重要基础。作为词语的向量化形式,词语向量表达通过计算后能够捕捉语言的特性,因此其被用于解决各种NLP的任务。近年来,以分布假说---词的语义由其上下文决定作为理论基础,由神经网络模型训练语言模型时生成的词分布表示,又叫词嵌入(word embedding)或词向量,在许多NLP任务上,取得超越传统的词袋(CBOW)特征表达方法的效果。这一提升归功于神经网络语言模型可以使用组合方式,以线性复杂度对复杂的n元上下文进行建模,解决了传统CBOW特征表达方法高维稀疏的问题。然而这种统一式的神经网络词嵌入模型不能有效区分词汇语义的相似度和相关度,在需要利用语义相似性区分单词含义或理解上,上下文不等同于真正的语义,词分布表示也存在局限性。
中国专利文献CN106610940A公开的一种新的本体概念词汇语义相似度求解方法,包括:初始化统计方法模块;将待比较词输入初始化统计方法模块中;将待比较词映射到本体概念模块中;分别选取待比较词对应深度最大的本体概念;计算待比较词对应深度最大的两本体概念间的相似度;待比较词之间的词形相似度;经过上述步骤,计算两待比较词最近共同祖先的深度对两待比较词相似度的影响,构造影响因子函数;综合上述步骤,计算两待比较词的相似度。
中国专利文献CN106610948A公开的一种改进的词汇语义相似度求解算法,本发明涉及语义网络技术领域,具体涉及一种改进的词汇语义相似度求解算法包括如下步骤:初始化统计方法模块,这里可以是《词语字典》、《词林》、知网、《百度百科》等等语料库;将待比较词输入初始化统计方法模块中;在统计模块中找到待比较词相邻上下文中权重最大的上下文词;根据待比较词分别对应的权重最大上下文词之间的相似度,提取相似度最大关键字;分别计算相似度最大关键字与待比较词的相关度;再利用求得的相关度,得出待比较词的相似度sim值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东建筑大学,未经山东建筑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110273206.1/2.html,转载请声明来源钻瓜专利网。