[发明专利]一种词向量动态调整的处理方法、系统、装置及介质在审

专利信息
申请号: 202010542552.0 申请日: 2020-06-15
公开(公告)号: CN111881690A 公开(公告)日: 2020-11-03
发明(设计)人: 李双印;邹邦祺;赵淦森 申请(专利权)人: 华南师范大学
主分类号: G06F40/30 分类号: G06F40/30;G06N3/08;G06N7/00
代理公司: 广州嘉权专利商标事务所有限公司 44205 代理人: 胡辉
地址: 510631 广东省广州市天*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 向量 动态 调整 处理 方法 系统 装置 介质
【说明书】:

发明公开了一种词向量动态调整的处理方法、系统、装置及介质。该方法获取包括批量单词的语料库数据;通过主题模型对单词进行学习,提取得到单词的词向量;根据词向量构建全局词向量矩阵和潜在语义矩阵;获取待处理单词的上下文语境信息,并基于上下文语境信息、全局词向量矩阵和潜在语义矩阵进行语境建模;通过基于语义的单纯形法对待处理单词的词向量进行各个维度的更新,得到待处理单词的语境词向量。本申请实施例能够充分利用单词所在的语境,分析出该语境所表达的总体语义信息,进行单词的词向量动态调整,从而获得更符合局部语境信息的词向量表示,提高了词向量表示的准确性。本发明可广泛应用于自然语言处理技术领域内。

技术领域

本发明涉及自然语言处理技术领域,尤其是一种词向量动态调整的处理方法、系统、装置及介质。

背景技术

在自然语言处理技术中,因为每个词语都是一个记号,而计算机所接受的输入是数字信号,如何将词语及其背后的含义传输给计算机就成了自然语言处理中最基础的一个研究工作。早期的方法是根据词语先生成词典,然后根据词典中每个词的绝对位置生成一个one-hot向量,即向量中只有一个分量为1,其他为0,这种方法有两个缺点:一、当词典规模增大的时候,向量的长度也随之线性增长;二、只用0/1两个数字无法表达自然语言中词语所蕴含的复杂含义。为了解决这些缺点,使用连续的向量表示单词成为了现在最常用的技术。在许多自然语言处理和文本建模任务中,词向量已得到了广泛的使用,并被证明是有效的。自然语言处理中经常提到的词嵌入(word embedding)正是指的将文本中的词转换成数字向量。如何通过向量来表示每个单词,并通过这些词嵌入向量之间的相关关系捕获单词之间的语义关系已经成为自然语言处理语义理解领域的一项重要基础研究工作。

目前有许多机器学习模型致力于将单词转化为单一固定的词向量,例如:Bengio等人用神经网络扩展了传统的n-gram语言模型;Tomas等人提出的一种计算效率高的对数线性神经语言用于获取单词嵌入的模型,被称为word2vector(Skip-Gram和CBOW);Pennington等人提出的GloVe,旨在通过汇总全局单词-单词共现统计来获得单词的嵌入;Murphy等人提出了非负稀疏嵌入(NNSE),这是矩阵分解的一种变体,可将单词嵌入非负语义空间,但不考虑单词多义性;google的研究人员于2018年提出的一种基于神经网络的词嵌入技术,其最大的特点是抛弃了传统的RNN和CNN而使用多层Transformer结构,称之为BERT。

然而,单词的含义是取决于具体的文本语境的。所谓文本语境,就是单词所处的文本上下文。在当前的方法中,词语的向量表达都蕴含在一个确定的向量中,这个向量并不会随着该词语的语境环境,进行调整和改变。然而,在不同的语境中,词语所表达出的语义可以是截然不同的,而且语境本身是千变万化,日新月异的。那么,使用同一个固定的词向量进行表达语义信息,显然是不足的,这种方法目前亟需改进。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此,本申请实施例的一个目的在于提供一种词向量动态调整的处理方法,该方法通过主题模型进行词向量学习,在获得词向量的基础上,根据不同的文本语境,对词向量进行动态调整和更新,使得得到词向量的表示更加准确。

本申请实施例的另一个目的在于提供词向量动态调整的处理系统。

为了达到上述技术目的,本申请实施例所采取的技术方案包括:

第一方面,本申请实施例提供了词向量动态调整的处理方法,包括以下步骤:

获取包括批量单词的语料库数据;

通过主题模型对所述单词进行学习,提取得到所述单词的词向量;所述词向量包括若干潜在语义的维度;

根据所述词向量构建全局词向量矩阵和潜在语义矩阵;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010542552.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top