[发明专利]一种基于文本循环神经网络的政务文本分类方法及系统在审
| 申请号: | 202110685564.3 | 申请日: | 2021-06-21 | 
| 公开(公告)号: | CN113505222A | 公开(公告)日: | 2021-10-15 | 
| 发明(设计)人: | 王红;庄鲁贺;滑美芳;李威;张慧;韩书 | 申请(专利权)人: | 山东师范大学 | 
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F40/117;G06F40/242;G06F40/279;G06F40/30;G06N3/04;G06N3/08 | 
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 闫伟姣 | 
| 地址: | 250014 山*** | 国省代码: | 山东;37 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 循环 神经网络 政务 分类 方法 系统 | ||
1.一种基于文本循环神经网络的政务文本分类方法,其特征在于,包括:
获取政务文本数据及其对应的类别标签;
构建文本循环神经网络分类模型,文本循环神经网络分类模型包括用于将政务文本数据映射为向量的嵌入层、双层长短期记忆网络层和全连接层;
根据政务文本数据和类别标签训练文本循环神经网络分类模型;其中,在双层长短期记忆网络层中,双向长短期记忆网络的输出嵌入向量和输入嵌入向量进行拼接,将得到的拼接向量输入到单向长短期记忆网络中,由全连接层对单向长短期记忆网络的输出向量的长度进行收缩,以与类别标签数量对应;
根据训练后的文本循环神经网络分类模型得到待分类政务文本数据的分类结果。
2.如权利要求1所述的一种基于文本循环神经网络的政务文本分类方法,其特征在于,对政务文本数据经预处理后进行特征提取,得到word2vec词向量。
3.如权利要求2所述的一种基于文本循环神经网络的政务文本分类方法,其特征在于,对word2vec词向量通过CBOW模型进行训练后用于分类。
4.如权利要求1所述的一种基于文本循环神经网络的政务文本分类方法,其特征在于,对类别标签进行编码,得到标签映射列表,将政务文本数据进行单字转换映射后,构建词向量。
5.如权利要求4所述的一种基于文本循环神经网络的政务文本分类方法,其特征在于,对类别标签采用onehot编码。
6.如权利要求1所述的一种基于文本循环神经网络的政务文本分类方法,其特征在于,训练文本循环神经网络分类模型的过程中,在嵌入层中将政务文本数据映射为二维向量,在双向长短期记忆网络中输出一维向量,并将双向长短期记忆网络的输出嵌入向量和输入嵌入向量进行拼接。
7.如权利要求1所述的一种基于文本循环神经网络的政务文本分类方法,其特征在于,对政务文本数据进行预处理,包括:
确定政务文本数据的缺失值比例,根据缺失值比例,清理缺失值所在的政务文本数据或填充缺失值;
删除除字母、数字、汉字以外的所有符号;
采用jieba分词方法,构造前缀词典,根据前缀词典对政务文本数据进行切分,根据切分位置,构造有向无环图,根据动态规划算法得到最大概率路径,以此得到最终的分词切分形式,对分词后的政务文本数据删除停用词。
8.一种基于文本循环神经网络的政务文本分类系统,其特征在于,包括:
数据获取模块,被配置为获取政务文本数据及其对应的类别标签;
模型构建模块,被配置为构建文本循环神经网络分类模型,文本循环神经网络分类模型包括用于将政务文本数据映射为向量的嵌入层、双层长短期记忆网络层和全连接层;
模型训练模块,被配置为根据政务文本数据和类别标签训练文本循环神经网络分类模型;其中,在双层长短期记忆网络层中,双向长短期记忆网络的输出嵌入向量和输入嵌入向量进行拼接,将得到的拼接向量输入到单向长短期记忆网络中,由全连接层对单向长短期记忆网络的输出向量的长度进行收缩,以与类别标签数量对应;
文本分类模块,被配置为根据训练后的文本循环神经网络分类模型得到待分类政务文本数据的分类结果。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110685564.3/1.html,转载请声明来源钻瓜专利网。





