[发明专利]一种非自回归的句子排序方法有效
申请号: | 202110648939.9 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113378546B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 杨阳;史文浩;宾燚;丁玉娟 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/126;G06N3/04;G06N3/08 |
代理公司: | 四川鼎韬律师事务所 51332 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 回归 句子 排序 方法 | ||
1.一种非自回归的句子排序方法,其特征在于,包括以下步骤:
(1)、构建句子排序网络
构建基本句子编码器、上下文句子编码器以及非自回归解码器,并组成句子排序网络,其中,非自回归解码器包括一个多头自注意机制、一个多头互注意力机制以及一个指针网络组成;
(2)、获得基本句子特征
基本句子编码器将N条句子的离散词映射成分布式表示,获得N个维度为dk的基本句子特征,第j条句子的基本句子特征表示为
(3)、获取上下文句子特征
将基本句子特征拼接为其中,表示N行、dk列的实数矩阵,令并送入上下文句子编码器;
所述的上下文句子编码器由M个注意力块构成,每个注意力块包括一个多头注意力模块以及一个前馈全连接层;
在上下文句子编码器的第一个注意力块中,首先,通过多头注意力模块得到多头注意力:
MH(Q,K,V)=[H1,H2,...,HG]WE
其中,[·,·]表示多个注意力头的拼接,为训练参数,为dk行、dk列的实数矩阵,第g个注意力头的计算如下:
其中,为第g个注意力头的训练参数,da=dk/G;
然后,由前馈全连接层对多头注意力MH(Q,K,V)进行全连接操作,得到上下文句子特征
将第一个注意力块中得到的上下文句子特征进行拼接,然后作为送入第二个注意力块中进行与第一个注意力块中相同的处理,这样,依次在M个注意力块进行处理,最后输出的上下文句子特征并作为上下文句子编码器输出上下文句子特征并表示为上下文句子特征集合
(4)、句子排序
4.1)、将离散位置投影嵌入为紧凑表示pi,每一维为:
j为偶数
j为奇数
其中,i表示位置的编号,pi,j紧凑表示pi中的第j维,得到N个位置的嵌入表示p1,p2,…,pN;
4.2)、将p1,p2,…,pN拼接为送入非自回归解码器中的多头自注意机制中,采用步骤(3)的方式进行处理,利用多头自注意力机制获取位置之间的交互作用和相对信息:
其中[·,·]表示多个注意力头的拼接,为训练参数,为这里第g个头的训练参数,设置da=dk/G;
4.3)、在多头互注意力机制中,使用位置查询上下文句子特征得到句子关于位置的注意力特征集合Ep:
其中,注意力特征集合Ep表示为为位置i的注意力特征;
4.4)、在指针网络中,计算N个句子在位置i的概率分布Ptri:
Ptri=softmax(ωi)
其中,WP、Wb为训练的网络参数,u是列权重向量,为句子j的基本句子特征,ωij表示句子j与位置i之间的注意力值,表示所有句子对位置i的注意力;
4.5)、在概率分布Ptri中,最大一维对应维度句子序号,将对应句子放到位置i,这样完成句子的排序。
2.根据权利要求1所述的非自回归的句子排序方法,其特征在于,所述句子排序网络通过最小化交叉熵损失函数来优化:
其中,oi是标签,是一个N维列向量,如果句子j位于位置i,oi的第j维的值为1,其他维的值为0,oi用来表示位置i正确对应的是句子j,log(Ptri)表示概率分布Ptri的N维概率取对数后构成的N维列向量。
3.根据权利要求1所述的非自回归的句子排序方法,其特征在于,采用BERT预训练模型作为基本句子编码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110648939.9/1.html,转载请声明来源钻瓜专利网。