[发明专利]基于可扩展动态选择与注意力机制的类别检测算法及系统有效
申请号: | 202010659504.X | 申请日: | 2020-07-09 |
公开(公告)号: | CN111813924B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 琚生根;曹万平;王婧妍 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33;G06F16/35;G06F40/205;G06N3/04;G06N3/08 |
代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 王红霞 |
地址: | 610065 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 扩展 动态 选择 注意力 机制 类别 检测 算法 系统 | ||
1.一种基于可扩展动态选择与注意力机制的类别检测方法,其特征在于,包括以下步骤:
将摘要中的单个句子通过双通道融合预训练语言模型ELMo与Bi-LSTM,分别得到第一句向量、第二句向量;
通过动态选择机制筛选保留所述第一句向量、第二句向量中的一个设为主句向量;
将摘要中所有单个句子对应的所述主句向量组成摘要向量序列并通过注意力网络进行加权;
经所述注意力网络加权后的输出进入层连Bi-LSTM网络,单个主句向量自动匹配摘要向量序列的上下文,过滤冗余信息进行分类,得到摘要中所有单个句子对应的文本生成概率;
采用CRF对所有单个句子对应的文本生成概率进行优化表示形成标签概率序列;其中,
所述通过动态选择机制筛选保留所述第一句向量、第二句向量中的一个设为主句向量的步骤,具体方式为:
通过以下公式计算得到隐层单元向量:
其中,i为第i个,为通过所述Bi-LSTM得到的所述第二句向量,为通过所述ELMo得到的第一句向量,σ为Sigmoid激活函数,Wa,We∈Ru×u为权重,u为动态选择的LSTM隐层神经元数目,bg∈Ru为偏置,g为u维的向量;
根据所述隐层单元向量通过动态选择机制筛选得到所述主句向量,具体计算公式为:
为主句向量;
所述将摘要中所有单个句子对应的所述主句向量组成摘要向量序列并通过注意力网络进行加权的步骤具体包括:
所述注意力网络中的Bi-LSTM接收一个包含n个单词的主句向量S={word1,…,wordn},S∈Rn×d,得到两个方向的隐层表示,将其拼接作为经Bi-LSTM编码后的结果H∈Rn×2×u,d为维度,u为LSTM隐层神经元数目;
H作为输入并按照以下公式从多个层面对主句向量计算注意力权重:
A=softmax(Ws2tanh(Ws1HT));
其中,Ws1∈Rda×2×u为注意力的权重参数,Ws2∈Rr×da表示通过关注句子的r个层面来对句子进行编码,A为n个单词进行加权求和的权重,da为注意力网络的隐层维度;
最后句子所有单词进行加权求和得到句子向量矩阵,其公式为:
M=AH。
2.根据权利要求1所述的方法,其特征在于,所述层连Bi-LSTM网络包括多个层连的Bi-LSTM,其中,层连Bi-LSTM网络的首层的计算方式为:
A=Attention(S)·S;
为正则化项,A为摘要的矩阵经注意力网络处理后得到的最终结果,为第一层LSTM的正向第i个隐层状态;为第一层LSTM的正向第i-1个隐层状态,Ai为经注意力网络第i个句子得到的结果,为第一层LSTM的反向第i个隐层状态,lstm为lstm网络,为第一层LSTM的反向第i+1个隐层状态,att为注意力计算经softmax函数处理前结果,S为注意力计算经softmax函数处理前结果,ST为S的转置,atti为第i个句子的注意力计算经softmax函数处理前结果,attj为第j个句子的注意力计算经softmax函数处理前结果,n为单个句子中单词个数。
3.根据权利要求2所述的方法,其特征在于,所述多个层连的Bi-LSTM中,除首层Bi-LSTM外的其他层输入均为其上一层的输入与输出拼接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010659504.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:小龙虾养殖方法
- 下一篇:一种油田用高分子聚合物驱油表面活性剂及其制备方法