[发明专利]一种基于BERT和字词特征融合的文本分类方法有效

申请号：	202110473890.8	申请日：	2021-04-29
公开（公告）号：	CN113297374B	公开（公告）日：	2023-09-12
发明（设计）人：	杨雄军;宁希;刘昆鹏;陶妍丹;方远;贾云海	申请（专利权）人：	军事科学院系统工程研究院网络信息研究所;电科云（北京）科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06F18/2415;G06F18/25;G06N3/0464;G06N3/08
代理公司：	北京众元弘策知识产权代理事务所(普通合伙) 11462	代理人：	宋磊
地址：	100141 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 bert 字词特征融合文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于BERT和字词特征融合的文本分类方法，其特征在于包括：

对待分类文本进行预处理，获得长度和字符归一化的第一文本的步骤，

在该步骤中，先是去除文本中不能进行后续处理的特殊字符；然后进行全半角转换，将文本的全角字符转换为相应的半角字符；最后统一文本长度，将待分类文本的长度与文本长度阈值L_T比较，如果超过了，则去掉待分类文本超过文本长度阈值的部分，如果不足，则在待分类文本的末尾添加占位字符补齐；

基于BERT预训练语言模型对所述第一文本进行字符向量编码的步骤，

在该步骤中，将所述第一文本按字符切分，然后将长度为L_T的字符序列输入到BERT预训练语言模型中进行维度为N_BERT的BERT编码，为每个字符生成一个1×N_BERT维的字符向量，L_T个字符经过BERT编码后得到L_T个1×N_BERT维的字符向量，它们组成的L_T×N_BERT维的矩阵，记为第一矩阵；

基于jieba分词库对所述第一文本进行分词的步骤，

在该步骤中，使用jieba分词库对所述第一文本进行分词，得到所述第一文本的词序列C_i，i＝1,2，…,m，m为词序列中词的个数；

根据得到的字符向量和分词结果拼接得到词向量编码的步骤，

设词C_i中有n_i个字符，将词C_i的n_i个字符对应的字符向量按字符在词中的顺序进行拼接，得到每个词C_i的n_i×N_BERT维的第一词向量编码C_code1-i；

基于双向GRU网络对第一词向量编码C_code1-i进行词向量再编码的步骤，

在该步骤中，将词C_i的n_i×N_BERT维的第一词向量编码C_code1-i输入到双向GRU网络中，针对每个词C_i的n_i×N_BERT维的第一词向量编码C_code1-i，使用双向GRU网络进行再编码，双向GRU网络中隐藏N_GRU个节点，再编码后双向GRU网络输出该词C_i的1×2N_GRU维的第二词向量编码C_code2-i，所述第一文本的个数为m的词序列C_i，经双向GRU网络再编码后得到所述第一文本对应的m个1×2N_GRU维第二词向量编码C_code2-i，它们组成的m×2N_GRU维矩阵，记为第二矩阵；

对第二词向量编码C_code2-i进行池化的步骤，

在该步骤中，对第二矩阵中的每个1×2N_GRU维的第二词向量编码C_code2-i按行分别进行最大池化和平均池化，得到m×1维的最大池化矩阵和m×1维的平均池化矩阵；

将最大池化矩阵和平均池化矩阵全连接得到待分类文本的全连接特征向量的步骤，

在该步骤中，将m×1维的最大池化矩阵和m×1维的平均池化矩阵进行拼接，得到2m×1维向量，即为待分类文本的特征向量，然后将该特征向量进行全连接，得到待分类文本的全连接特征向量，使待分类文本的全连接特征向量的维度和文本类别数量相同；

根据待分类文本的全连接特征向量进行softmax分类的步骤，

在该步骤中，用softmax函数对待分类文本的全连接特征向量进行数值处理，计算对待分类文本的全连接特征向量每一个元素V_i的Softmax函数值S_i，其中，

V_i是第i个元素的输出值，其中1≤i≤C；总的文本类别个数是C；S_i表示的是第i个元素的指数与所有元素指数之和的比值，{S_i，1≤i≤C}中最大值对应的文本类别，即为待分类文本的文本类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于军事科学院系统工程研究院网络信息研究所;电科云（北京）科技有限公司，未经军事科学院系统工程研究院网络信息研究所;电科云（北京）科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110473890.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于集群的任务调度处理方法、系统和计算机设备
下一篇：一种后向分离风洞投放模型试验发射机构

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于BERT和字词特征融合的文本分类方法有效

专利文献下载