[发明专利]一种非自回归的句子排序方法有效
申请号: | 202110648939.9 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113378546B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 杨阳;史文浩;宾燚;丁玉娟 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/126;G06N3/04;G06N3/08 |
代理公司: | 四川鼎韬律师事务所 51332 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 回归 句子 排序 方法 | ||
为了实现并行预测提高预测效率,解决误差累积提高句子排序任务的性能,考虑到句子排序任务中生成目标的长度具有确定性,并且句子和位置具有完全匹配性,本发明创新性地设计了一种非自回归的句子排序方法,采用非自回归解码器,充分利用了Transformer变体结构所得到的上下文句子特征,从而并行地预测每个位置的句子,能够有效避免循环神经网络解码器递归地预测句子顺序所带来的效率低下与误差累积的难题。
技术领域
本发明属于句子排序技术领域,更为具体地讲,涉及一种非自回归的句子排序方法。
背景技术
句子排序是建模文档连贯性的基本任务和常见任务之一,其目标是将一组句子重新组织为一段连贯的文本。
现有的句子排序方法,通常采用编码器-解码器体系结构,利用指针网络进行序列预测。由于输入段落中的句子是无序的,循环神经网络的编码方式将所有句子表征映射为段落的特征向量,这样的方式会捕获句子之间的错误语义逻辑,从而误导解码器预测出不连贯的段落,显然同一段落的不同排列方式可能会得到不同的段落表示特征,并导致输出不同的句子顺序。
启发于自注意力机制,现有的句子排序方法采用去除位置编码的Transformer变体结构来提取更可靠的段落表征,以消除句子输入顺序带来的影响。当前主流的句子排序方法是一种自回归的注意力句子排序方法,利用Bi-LSTM来提取基本的句子特征向量,并基于自注意力机制学习段落中的句子特征,平均池化后获得段落特征来初始化循环神经网络解码器的隐层状态,通过指针网络,采用贪心搜索或集束搜索递归地预测有序句子。
尽管自回归的注意力句子排序方法能有效解决句子输入顺序问题而获得可靠的段落特征,并进一步提升句子排序任务的性能。然而,其有两个不足,(1)现有的句子排序方法采用指针网络来递归地逐步预测每个句子的顺序,这种自回归的方式效率较低,算法复杂度高,无法并行实现预测,需要更多的开销。(2)现有的方法采用了循环神经网络解码器,循环神经网络的循环性会导致排序解码器在序列预测的过程中产生误差累积,会限制句子排序任务的性能。
发明内容
本发明的目的在于克服现有技术的不足,提供一种非自回归的句子排序方法,以有效实现并行预测,提高预测效率,同时,解决误差积累问题,提高句子排序任务的性能。
为实现上述发明目的,本发明非自回归的句子排序方法,其特征在于,包括以下步骤:
(1)、构建句子排序网络
构建基本句子编码器、上下文句子编码器以及非自回归解码器,并组成句子排序网络,其中,非自回归解码器包括一个多头自注意机制、一个多头互注意力机制以及一个指针网络组成;
(2)、获得基本句子特征
基本句子编码器将N条句子的离散词映射成分布式表示,获得N个维度为dk的基本句子特征,第j条句子的基本句子特征表示为
(3)、获取上下文句子特征
将基本句子特征拼接为其中,表示N行、dk列的实数矩阵,令并送入上下文句子编码器;
所述的上下文句子编码器由M个注意力块构成,每个注意力块包括一个多头注意力模块以及一个前馈全连接层;
在上下文句子编码器的第一个注意力块中,首先,通过多头注意力模块得到多头注意力:
MH(Q,K,V)=[H1,H2,…,HG]WE
其中,[·,·]表示多个注意力头的拼接,为训练参数,为dk行、dk列的实数矩阵,第g个注意力头的计算如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110648939.9/2.html,转载请声明来源钻瓜专利网。