[发明专利]基于深度学习的输变电设备缺陷文本分类方法及系统在审
申请号: | 202110279537.6 | 申请日: | 2021-03-16 |
公开(公告)号: | CN112699244A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 张葛祥;朱明;王茜;杨强;杨强 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京元本知识产权代理事务所(普通合伙) 11308 | 代理人: | 王红霞 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 变电 设备 缺陷 文本 分类 方法 系统 | ||
本发明提供一种基于深度学习的输变电设备缺陷文本分类方法及系统,方法包括步骤:S1:将获取的输变电设备缺陷文本预处理,然后进行词嵌入得到带电力语义特征的第一词向量;S2:通过双向长短时记忆网络获取输变电设备缺陷文本前向和后向特征信息,输出隐藏层状态向量;S3:利用自注意力机制对隐藏层状态向量进行加权变换,获取深层语义特征,得到最终的待分类句向量;S4:将待分类向量经过全连接层输出至Softmax分类器,获得输变电设备缺陷文本分类结果。该方法能解决现有的电力领域缺陷文本分类的人工成本高,分类结果易受分类技术人员经验影响及传统文本分类方法不适用于电力领域的技术性问题。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于深度学习的输变电设备缺陷文本分类方法及系统。
背景技术
随着智能电网的不断发展,电网在日常运行和维护过程中,会产生大量的缺陷文本数据;而缺陷文本数据的分析汇总是电网设备缺陷故障处理并分析的原始依据。目前,电网输变电设备缺陷文本分析主要依靠人工完成,成本高,效率低,且易受人工经验差异的影响导致分类结果有偏差。人工智能和自然语言处理技术的发展为电力设备缺陷文本挖掘提供了可能。现有的文本分类技术有朴素贝叶斯、支持向量机、决策树等,但传统的基于机器学习相关算法的文本分类器难以挖掘出文本的深层特征,不利于文本数据的进一步分析研究和应用,同时电力领域的文本包含大量的专业用语和特殊符号,专业性强,深度学习中通用的分类模型难以得到直接的迁移应用,而目前电力文本挖掘尚处于起步阶段。
发明内容
有鉴于此,本发明的目的之一在于提供一种基于深度学习的输变电设备缺陷文本分类方法,该方法能适用于电力领域缺陷文本分类。
为实现上述目的,本发明的技术方案为:一种基于深度学习的输变电设备缺陷文本分类方法,包括以下步骤:
S1:将获取的输变电设备缺陷文本预处理,然后将预处理后的输变电设备缺陷文本进行词嵌入得到带电力语义特征的第一词向量;
S2:通过双向长短时记忆网络获取输变电设备缺陷文本前向和后向特征信息,输出隐藏层状态向量;
S3:利用自注意力机制对隐藏层状态向量进行加权变换,获取深层语义特征,得到最终的待分类句向量;
S4:将所述待分类句向量经过全连接层输出至Softmax分类器,获得输变电设备缺陷文本分类结果。
进一步地,所述预处理包括对所述输变电设备缺陷文本进行分词、去除停用词和统一化用语处理。
进一步地,所述步骤S1中将预处理后的输变电设备缺陷文本进行词嵌入得到带电力语义特征的第一词向量的步骤具体包括:
读取预处理后的输变电设备缺陷文本,统计词频信息;
构建词典,并初始化哈夫曼树以及随机初始化词向量;
以行为单位训练模型,获取当前行中一个输入样本;
累积上下文词向量中每个维度的值并求平均得到投影层向量;
遍历当前词到根节点经过的每个中间节点;
计算中间节点对应梯度g*学习速率,刷新投影层到该中间节点的误差向量,刷新中间节点向量,刷新上下文词向量。
进一步地,所述步骤S2具体包括以下步骤:
定义前向LSTM结构和后向LSTM结构,采用动态RNN单元对网络输出的结果进行拼接,然后输入到下一层双向长短时记忆网络,将最后一层Bi-LSTM输出的结果通过split方法分割成前向和后向的输出;
将前向和后向的输出相加得到最后的隐藏层状态。
进一步地,所述LSTM结构中每一时间状态通过以下方式进行更新公式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110279537.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种药剂加热式保温杯
- 下一篇:一种机械设备维修用吊装装置