[发明专利]一种基于BERT和字词特征融合的文本分类方法有效
申请号: | 202110473890.8 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113297374B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 杨雄军;宁希;刘昆鹏;陶妍丹;方远;贾云海 | 申请(专利权)人: | 军事科学院系统工程研究院网络信息研究所;电科云(北京)科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F18/2415;G06F18/25;G06N3/0464;G06N3/08 |
代理公司: | 北京众元弘策知识产权代理事务所(普通合伙) 11462 | 代理人: | 宋磊 |
地址: | 100141 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 字词 特征 融合 文本 分类 方法 | ||
1.一种基于BERT和字词特征融合的文本分类方法,其特征在于包括:
对待分类文本进行预处理,获得长度和字符归一化的第一文本的步骤,
在该步骤中,先是去除文本中不能进行后续处理的特殊字符;然后进行全半角转换,将文本的全角字符转换为相应的半角字符;最后统一文本长度,将待分类文本的长度与文本长度阈值LT比较,如果超过了,则去掉待分类文本超过文本长度阈值的部分,如果不足,则在待分类文本的末尾添加占位字符补齐;
基于BERT预训练语言模型对所述第一文本进行字符向量编码的步骤,
在该步骤中,将所述第一文本按字符切分,然后将长度为LT的字符序列输入到BERT预训练语言模型中进行维度为NBERT的BERT编码,为每个字符生成一个1×NBERT维的字符向量,LT个字符经过BERT编码后得到LT个1×NBERT维的字符向量,它们组成的LT×NBERT维的矩阵,记为第一矩阵;
基于jieba分词库对所述第一文本进行分词的步骤,
在该步骤中,使用jieba分词库对所述第一文本进行分词,得到所述第一文本的词序列Ci,i=1,2,…,m,m为词序列中词的个数;
根据得到的字符向量和分词结果拼接得到词向量编码的步骤,
设词Ci中有ni个字符,将词Ci的ni个字符对应的字符向量按字符在词中的顺序进行拼接,得到每个词Ci的ni×NBERT维的第一词向量编码Ccode1-i;
基于双向GRU网络对第一词向量编码Ccode1-i进行词向量再编码的步骤,
在该步骤中,将词Ci的ni×NBERT维的第一词向量编码Ccode1-i输入到双向GRU网络中,针对每个词Ci的ni×NBERT维的第一词向量编码Ccode1-i,使用双向GRU网络进行再编码,双向GRU网络中隐藏NGRU个节点,再编码后双向GRU网络输出该词Ci的1×2NGRU维的第二词向量编码Ccode2-i,所述第一文本的个数为m的词序列Ci,经双向GRU网络再编码后得到所述第一文本对应的m个1×2NGRU维第二词向量编码Ccode2-i,它们组成的m×2NGRU维矩阵,记为第二矩阵;
对第二词向量编码Ccode2-i进行池化的步骤,
在该步骤中,对第二矩阵中的每个1×2NGRU维的第二词向量编码Ccode2-i按行分别进行最大池化和平均池化,得到m×1维的最大池化矩阵和m×1维的平均池化矩阵;
将最大池化矩阵和平均池化矩阵全连接得到待分类文本的全连接特征向量的步骤,
在该步骤中,将m×1维的最大池化矩阵和m×1维的平均池化矩阵进行拼接,得到2m×1维向量,即为待分类文本的特征向量,然后将该特征向量进行全连接,得到待分类文本的全连接特征向量,使待分类文本的全连接特征向量的维度和文本类别数量相同;
根据待分类文本的全连接特征向量进行softmax分类的步骤,
在该步骤中,用softmax函数对待分类文本的全连接特征向量进行数值处理,计算对待分类文本的全连接特征向量每一个元素Vi的Softmax函数值Si,其中,
Vi是第i个元素的输出值,其中1≤i≤C;总的文本类别个数是C;Si表示的是第i个元素的指数与所有元素指数之和的比值,{Si,1≤i≤C}中最大值对应的文本类别,即为待分类文本的文本类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于军事科学院系统工程研究院网络信息研究所;电科云(北京)科技有限公司,未经军事科学院系统工程研究院网络信息研究所;电科云(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110473890.8/1.html,转载请声明来源钻瓜专利网。