[发明专利]双阶段语义词向量生成方法有效

专利信息
申请号: 201911132191.6 申请日: 2019-11-19
公开(公告)号: CN111027595B 公开(公告)日: 2022-05-03
发明(设计)人: 桂盛霖;刘一飞 申请(专利权)人: 电子科技大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08;G06F40/30
代理公司: 电子科技大学专利中心 51203 代理人: 周刘英
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 阶段 语义 向量 生成 方法
【权利要求书】:

1.一种双阶段语义词向量生成方法,其特征在于,该方法分为三个阶段,并由5个步骤组成,其中第一阶段是文本矩阵化;第二阶段包括特征提取器的构建、语义识别两个步骤;第三阶段包括神经语言模型的构建、义项词向量的生成两个步骤:

步骤1:文本矩阵化

从获取的文本中挑选出含有多义词w的子句si,构成集合Dw={s1,s2,s3...},即含有歧义词的子句集合,将子句si与多义词w在该子句的义项类别ci组成一条训练样本(si,ci),将这样的训练样本集合称为数据集,i=1,2,...,n;

取所述集合Dw中出现频率最高的L个字符构成字汇表,为所述字汇表构建一个数据矩阵V,其大小记为L行M列,其中第r行对应字汇表中第r个字符的向量表示,即V中的每一行表示该行对应字符的初始化向量,矩阵V的值使用标准正态分布进行初始化,L是字汇表的大小;

对所述数据集中每个训练样本(si,ci)的子句si进行文本矩阵化,所述文本矩阵化就是将含有多义词w的子句si转换成一个q行M列的数据矩阵Di,其中q是子句si转化成的数据矩阵Di的行数,其大小不超过所述获取的文本中最长的子句具有的字符的个数,且q值由用户根据实际情况指定,qL;Di是子句si中每个字的字符向量经过拼接之后又做了行数处理之后的结果;拼接的做法是,根据子句si的第k个字符从字汇表数据矩阵V中查得这个字符的向量表示,将其作为数据矩阵Di第k行的值,k=1,2,...,q,行数处理的做法是,若Di的行数大于q,则只取其前q行,若Di的行数小于q,则补相应行数的0使其行数达到q;

步骤2:特征提取器的构建

基于卷积神经网络(CNN)构建一个特征提取器,该特征提取器的结构包含6层,分别是输入层、卷积层、池化层、全连接层1、全连接层2和输出层,其中,每一层的作用分别描述如下:

输入层:利用步骤1的文本矩阵化将所述数据集中每个训练样本(si,ci)中的si转换成对应的数据矩阵Di作为所述特征提取器的输入;

卷积层:利用多个卷积核与矩阵Di进行卷积运算抽取出每个训练样本中的子句si的局部特征,得到多个特征图,其中,为每个不同窗口大小的卷积共设置了256个卷积核,卷积的窗口值设置为[3,4,5];

池化层:使用最大池化,通过降采样的方法对卷积层得到的所述多个特征图进行压缩,得到池化后的特征图,然后将其拼接得到列向量Ei

全连接层1:根据该层的权重参数矩阵将所述列向量Ei转化为列向量Fi,该列向量Fi的维度设置为128,Fi表示所述特征提取器提取到的si的特征向量;

全连接层2:通过全连接层1得到的si的特征向量Fi来计算si中多义词w被预测为每个义项的可能性,该可能性被表示为一个列向量,全连接层1和全连接层2之间使用dropout函数舍弃部分特征,防止所述特征提取器模型过拟合,提高所述特征提取器模型的泛化能力,所述全连接层2的维度与多义词w的义项数一致;

输出层:使用Softmax函数将全连接层2得到的所述列向量的长度转化为1,得到训练样本中子句si中w被预测为每个义项的概率值;

将由步骤1得到的文本矩阵化后的数据集按照8:2的比例分为训练集和验证集,然后使用交叉熵损失函数及反向调节算法对所述特征提取器的网络参数进行更新;当所述特征提取器的网络参数都收敛之后,保持所述特征提取器中各网络参数不变,即得到训练及验证完成的所述特征提取器;最后将含有多义词w的训练样本重新输入所述训练及验证完成的所述特征提取器,则全连接层1重新输出的Fi即为特征提取器提取到的子句si的特征向量;所述训练集和所述验证集都是在训练过程中使用的,所述特征提取器一边训练一边验证;

步骤3:多义词语义识别

将多义词语义识别作为分类任务处理,采用分类器SVM进行多义词语义识别;对每条训练样本使用步骤2得到的特征向量Fi作为所述分类器SVM的输入,以下式作为目标函数,对所述分类器SVM进行训练:

s.t.yi(whyperφ(xi)+b)≥1-ξi,C>0,ξi≥0,i=1,2,...,n

所述分类器SVM的核心问题是寻求出在多维空间中能够区分正负类样本的最优分离超平面whyperx+b=0,其中whyper和b分别代表了该超平面的法向量与截距;C为惩罚系数;ξ为松弛变量;xi即Fi,为子句si的特征向量;yi即义项类别ci,为xi对应的类别标记;φ(x)为从低维空间到高维空间的非线性映射函数;

对于训练好的分类器SVM,将由步骤2得到的子句si的特征向量Fi作为输入,即可对样本子句si中多义词w的语义进行识别,得到其预测义项类别

步骤4:神经语言模型的构建

构建一个神经语言模型,所述神经语言模型的训练采用训练集D,首先,对于神经语言模型的训练集D,按照步骤1的方法构建含有多义词w的文本集合Dw={s1,s2,s3...},并构建集合Dr=D-Dw,然后对于Dw中每条文本si,使用步骤1的文本矩阵化方法将其转换成矩阵Di,使用步骤2构建好的特征提取器得到si的特征向量Fi,按照步骤3中多义词识别过程得到样本si中多义词w的预测义项类别然后将文本si中多义词w替换为w′,其中即将多义词w与其预测义项类别进行字符串连接,最终得到新的文本集合D′w={s′1,s′2,s′3...},合并集合,得到新的训练集D′=D′w+Dr

然后,对所述训练集D′中的训练样本进行分词、去停用词,然后统计每个词语的词频,按照词频降序排序,选取前l个词形成词汇表,并按照步骤1中的方式,为该词汇表构建一个数据矩阵V′,矩阵的大小为l行m列,根据词汇表中各词语的词频构建一棵哈夫曼树H;

最后,初始化所述神经语言模型,使用当前词语wt的上下文context(wt)={wt-1,wt+1,...,wt-k,wt+k},其中,k是预先选取的上下文窗口的大小,训练所述神经语言模型,预测当前词wt;所述神经语言模型的结构包含三层网络,其中每一层网络的作用如下:

输入层:从数据矩阵V′中获得当前词wt上下文的向量表示,各神经元的输入是一个m维的列向量,代表当前词wt左侧第一个词语wt-1的词向量,代表当前词wt右侧第一个词语wt+1的词向量,依次类推;

投影层:将输入层的词向量集合{wt-1,wt+1,...,wt-k,wt+k}映射成一个环境向量表示此处将输入层的各个词向量wt-1,wt+1,...,wt-k,wt+k相加取平均值得到

输出层:使用哈夫曼树结构构建输出层,加速所述神经语言模型的计算过程,使用层次Softmax(Hierarchical Softmax)算法完成输出层的正向传播和反向调节,即投影层到输出层的Softmax是沿着哈夫曼树一层一层的完成的,此处的哈夫曼树即H,哈夫曼树中的每个叶子节点类似神经网络输出Softmax层的神经元,除根节点外的内部节点类似于神经网络隐藏层的神经元,根节点存储由投影层获得的环境向量

步骤5:义项词向量的生成

义项词向量的生成,主要在于所述神经语言模型各层网络参数的更新,即层次Softmax算法的正向传播过程及反向调节过程,具体如下:

首先进行参数定义:

wt表示目标输出词语

表示根节点词向量

表示从根结点到wt所在叶子结点的路径上包含的结点总数

表示从根结点到wt所在叶子结点的路径上的第j个结点

表示结点对应的哈夫曼编码{0,1},

表示结点对应的模型参数向量,

Hierarchical Softmax算法正向传播过程的核心是找到所有合适的内部结点参数向量,使得训练样本达到最大似然,它每次训练使用一条训练样本,将正向传播过程中每一次二叉分支视作一次分类过程,将左分支即编码为0的分支,视为正类,将右分支即编码为1的分支视作负类,使用sigmoid函数预测分类的概率;

从根结点到wt所在叶子结点的路径中,经过哈夫曼树某个结点的逻辑回归概率表达式如下式所示:

其中σ(x,θ)为sigmoid函数,公式如下:

则对于目标输出词wt,其最大似然函数为:

反向调节过程为Hierarchical Softmax算法用负的对数似然函数作为损失函数,使用梯度下降法,对参数及生成根结点词向量的相关向量,即context(wt)中词语的向量进行更新,如以下几个公式所示,η代表所述神经语言模型的学习率:

每次更新要将数据矩阵V′中词语wi的词向量进行更新,在下一次读取词语wi的词向量时,使用已经更新后的向量,迭代训练,直到所述神经语言模型收敛,最终数据矩阵V′中的各个行向量就是每个词语的义项词向量。

2.根据权利要求1所述的双阶段语义词向量生成方法,其特征在于,所述步骤4中选取的上下文窗口的大小k设置为3。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911132191.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top