[发明专利]一种基于Attention机制的多通道的文本分类方法有效
| 申请号: | 201911191475.2 | 申请日: | 2019-11-28 |
| 公开(公告)号: | CN111061873B | 公开(公告)日: | 2022-03-15 |
| 发明(设计)人: | 刘磊;侯良文;孙应红;李静 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/289 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 attention 机制 通道 文本 分类 方法 | ||
1.一种基于Attention机制的多通道的文本分类方法,包括以下步骤:
步骤1文本预处理
1.1文本分词,构建预处理后语料库;
1.2构建词库,所述的词库由去除停用词后且词频大于阈值θ的词构成,同时在词库中插入字符串“UNK”和“PAD”,其中“UNK”表示不能识别的词,“PAD”表示为模型输入中固定句子长度需要填充的词;
步骤2词向量构建
利用word2vec技术,对预处理后的语料进行词向量的训练,词向量的维度设置为d,得到预训练词向量表,对词库中的每一个词,若该词在预训练词向量表存在,则使用表中词向量作为该词的词向量,若该词在预训练词向量表中不存在,则使用正态分布随机初始化向量作为该词的词向量;
步骤3模型构建
3.1词向量的初始化
首先对于预处理后语料库中每个句子,用词向量替换句子中的每个词,构建句子的词向量表示;
然后利用预训练词向量创建的句子词向量嵌入矩阵A∈Rl×d,构建第1通道,表示如下:
A=[x1,x2,…,xi,…,xl]T 1≤i≤l
其中xi对应句子中第i个词的d维向量,l为句子的固定长度;
利用均匀分布随机初始化的词向量创建的句子词向量嵌入矩阵B∈Rl×d,构建第2通道,表示如下:
B=[y1,y2,…,yi,…,yl]T 1≤i≤l
其中yi对应句子中第i个词的d维向量,l为句子的固定长度;
将词向量嵌入矩阵A和B在深度方向上进行拼接,得到句子的双通道词向量嵌入矩阵C∈R2×l×d表示如下:
其中,表示两个相同维度的二维矩阵在深度方向上的拼接符号;
3.2引入Attention层
首先在第1和第2通道上引入Attention机制,将通道上的当前词向量重新编码,通道1的词向量xi, 1≤i≤l的上下文向量ui表示如下:
其中αij为词向量xi对应的权重值,l为句子固定长度,αij>0且权重值αij按照如下公式计算:
其中l为句子固定长度,score(xi,xj)是词向量xi和xj, i≠j的相似性得分,表示如下:
然后将词向量和其对应的上下文向量拼接为扩展词向量,更新到嵌入矩阵中,其中,词向量xi的扩展词向量Xi表示如下:
其中1≤i≤l,l为句子固定长度,表示向量之间的串联拼接符号;
基于同样方法,计算得到通道2的词向量yi1≤i≤l的上下文向量vi,yi的扩展词向量Yi;
3.3文本特征抽取和类别输出
双通道词嵌入矩阵C∈R2×l×d经过Attention机制对词向量的重新编码后,更新后的嵌入矩阵变为D∈R2×l×2d,表示如下:
其中,∪表示向量并行拼接符号,l为句子固定长度,表示两个通道上的扩展词向量Xk和Yk在空间维度上的合并;
然后使用窗口大小为h,深度为2的多个卷积核在双通道嵌入矩阵上进行滑动卷积操作,得到卷积核提取的特征图,再对特征图进行最大池化操作,将池化得到的主要特征展开成特征向量ξ,以ξ作为全连接层的输入,经过全连接层和Softmax层得到文本所属类别的概率分布。
2.根据权利要求1所述的一种基于Attention机制的多通道的文本分类方法,其特征在于:
所述步骤3.1中构建句子的词向量表示具体为:以词的数目表示句子长度,设置句子固定长度为l,对于大于句长l的句子截断,小于句长l的句子用“PAD”填充。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911191475.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车铸造件砂锭成型模具
- 下一篇:用于直流套管密封圈模拟测试的装置及方法





