[发明专利]基于深度学习的输变电设备缺陷文本分类方法及系统在审

申请号：	202110279537.6	申请日：	2021-03-16
公开（公告）号：	CN112699244A	公开（公告）日：	2021-04-23
发明（设计）人：	张葛祥;朱明;王茜;杨强;杨强	申请（专利权）人：	成都信息工程大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/04;G06N3/08
代理公司：	北京元本知识产权代理事务所(普通合伙) 11308	代理人：	王红霞
地址：	610000 四川省成都***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习变电设备缺陷文本分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于深度学习的输变电设备缺陷文本分类方法及系统，方法包括步骤：S1：将获取的输变电设备缺陷文本预处理，然后进行词嵌入得到带电力语义特征的第一词向量；S2：通过双向长短时记忆网络获取输变电设备缺陷文本前向和后向特征信息，输出隐藏层状态向量；S3：利用自注意力机制对隐藏层状态向量进行加权变换，获取深层语义特征，得到最终的待分类句向量；S4：将待分类向量经过全连接层输出至Softmax分类器，获得输变电设备缺陷文本分类结果。该方法能解决现有的电力领域缺陷文本分类的人工成本高，分类结果易受分类技术人员经验影响及传统文本分类方法不适用于电力领域的技术性问题。

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于深度学习的输变电设备缺陷文本分类方法及系统。

背景技术

随着智能电网的不断发展，电网在日常运行和维护过程中，会产生大量的缺陷文本数据；而缺陷文本数据的分析汇总是电网设备缺陷故障处理并分析的原始依据。目前，电网输变电设备缺陷文本分析主要依靠人工完成，成本高，效率低，且易受人工经验差异的影响导致分类结果有偏差。人工智能和自然语言处理技术的发展为电力设备缺陷文本挖掘提供了可能。现有的文本分类技术有朴素贝叶斯、支持向量机、决策树等，但传统的基于机器学习相关算法的文本分类器难以挖掘出文本的深层特征，不利于文本数据的进一步分析研究和应用，同时电力领域的文本包含大量的专业用语和特殊符号，专业性强，深度学习中通用的分类模型难以得到直接的迁移应用，而目前电力文本挖掘尚处于起步阶段。

发明内容

有鉴于此，本发明的目的之一在于提供一种基于深度学习的输变电设备缺陷文本分类方法，该方法能适用于电力领域缺陷文本分类。

为实现上述目的，本发明的技术方案为：一种基于深度学习的输变电设备缺陷文本分类方法，包括以下步骤：

S1：将获取的输变电设备缺陷文本预处理，然后将预处理后的输变电设备缺陷文本进行词嵌入得到带电力语义特征的第一词向量；

S2：通过双向长短时记忆网络获取输变电设备缺陷文本前向和后向特征信息，输出隐藏层状态向量；

S3：利用自注意力机制对隐藏层状态向量进行加权变换，获取深层语义特征，得到最终的待分类句向量；

S4：将所述待分类句向量经过全连接层输出至Softmax分类器，获得输变电设备缺陷文本分类结果。

进一步地，所述预处理包括对所述输变电设备缺陷文本进行分词、去除停用词和统一化用语处理。

进一步地，所述步骤S1中将预处理后的输变电设备缺陷文本进行词嵌入得到带电力语义特征的第一词向量的步骤具体包括：

读取预处理后的输变电设备缺陷文本，统计词频信息；

构建词典，并初始化哈夫曼树以及随机初始化词向量；

以行为单位训练模型，获取当前行中一个输入样本；