[发明专利]一种基于多级注意力机制的藏文机器阅读理解方法在审
申请号: | 202110192706.2 | 申请日: | 2021-02-20 |
公开(公告)号: | CN112966474A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 孙媛;陈超凡 | 申请(专利权)人: | 中央民族大学 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100081 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多级 注意力 机制 藏文 机器 阅读 理解 方法 | ||
1.一种基于多级注意力机制的藏文机器阅读理解方法,其特征在于,包括以下步骤:
对藏文文字进行音节以及词语两个不同级别的切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中;
通过词级别的注意力机制进行关键词搜索;
通过重读机制对文章的关键语义信息提取;
通过自注意力机制对文章中关键信息进行再次的筛选;
使用全连接网络对上述的隐变量进行解码,并对答案位置进行预测。
2.根据权利要求1所述的方法,其特征在于的,所述对藏文文字进行音节以及词语两个不同级别的进切分,然后对音节使用高速网络进行编码,最后融入到藏文词向量中步骤,包括;
定义有一个问题序列Q={q1,q2,q3…qn}和一个文章序列P={p1,p2,p3…pm},对它们分别进行音节级别以及词级别的切分,并使用预训练模型转换为相应的音节和词级别的向量和对于音节级别编码,使用双向长短期记忆神经网络,并将最终该网络最终的隐层状态作为一个该词的音节编码;最后,通过两层的高速网络将两个不同级别的向量进行融合。
3.根据权利要求1所述的方法,其特征在于的,所述通过词级别的注意力机制进行关键词搜索步骤,包括:
定义通过音节编码层的文章的词嵌入表示为而问题词嵌入表示为文章中的每个词的注意力权重表示为:
au∝exp(Su)
其中,和是可以训练的权重矩阵,Su表示的是相关性矩阵,VT,都是网络中可训练的参数,是问题的词编码序列,是文章的词编码序列,au是对文章中每个词与问题的相关性矩阵进行归一化之后的矩阵,是分配了权重之后文章中的每次词向量;最后,使用双向的长短时记忆网络BiLSTM去获取句子级别的文章表示Vtp,即
其中,是双向长短时记忆网络中t-1时刻的文章表示向量,则是代表分配权重前后的文章编码的拼接向量。
4.根据权利要求1所述的方法,其特征在于的,所述通过重读机制对文章的关键语义信息提取步骤,包括:
首先针对问题序列使用双向的长短时记忆网络去生成高级语义表示即
这里的表示的是前一个状态的隐藏向量,是输入嵌入层中问题的音节嵌入的输出,是词级别注意力机制层的输出。接下来使用重读注意力机制去关注文章中关键信息,即:
av∝exp(Sv)
其中,VT,分别为网络中可训练的参数矩阵,
这里Sv是文章和问题之间语义相关性矩阵,是问题编码的语义向量,是词级别注意力机制层的输出向量;最后使用双向的长短时记忆网络对重读机制层的输出进行编码。
其中,代表的是双向长短是记忆网络中t-1时刻的隐向量状态,是分配语义权重前后文章编码的拼接矩阵。
5.根据权利要求1所述的方法,其特征在于的,所述自注意力机制公式为:
aj∝exp(Sj)
其中,VT,和都是网络中可训练的参数,Sj是相关性矩阵,是注意力权重的隐藏向量;将自注意力机制向量被送入另外一个的双向长短是注意力机制网络去生成最后的向量表示
其中,是网络中t-1时候的隐状态,此处是网络中前一个状态的隐层向量,是重读注意力机制层的输出。则是文章自身进行权重计算前后的向量拼接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110192706.2/1.html,转载请声明来源钻瓜专利网。