[发明专利]基于深度神经网络的电力检修文本挖掘方法在审

专利信息
申请号: 201811518919.4 申请日: 2018-12-12
公开(公告)号: CN109783637A 公开(公告)日: 2019-05-21
发明(设计)人: 祝春捷;夏霖;潘坚跃;陈超;徐晓华;向新宇;孔晓杭;泮莉莎;施婧;李雅;雷云;石佳;陈晨 申请(专利权)人: 国网浙江省电力有限公司杭州供电公司;浙江华云信息科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06N3/04
代理公司: 杭州华鼎知识产权代理事务所(普通合伙) 33217 代理人: 项军
地址: 310004 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 电力检修 神经网络 文本挖掘 词向量 文本 分类准确率 数值型数据 电力服务 电力行业 分类结果 复杂文本 热线服务 文本数据 系统生成 影响分类 语义分类 重要意义 专业词语 引入 覆盖度 通用的 挖掘 转换 外部
【说明书】:

发明提供了基于深度神经网络的电力检修文本挖掘方法,包括获取由电力服务热线服务系统生成的电力检修文本;对获取到的电力检修文本进行由文本数据向数值型数据转换的处理;对处理后的数据进行基于神经网络的语义分类,得到表明具体需求的分类结果。通过引入通用的大规模预训练词向量,并没有因为专业词语覆盖度降低而影响分类效果,反而使得分类准确率大幅提升。这说明大规模外部词向量的引入,对提升电力行业复杂文本挖掘任务的效果有重要意义。

技术领域

本发明属于文字处理领域,特别涉及基于深度神经网络的电力检修文本挖掘方法。

背景技术

随着各种文本数据的不断积累,电力行业中正在越来越多地使用文本挖掘技术。由于非结构文本数据的复杂性,使用传统文本挖掘方法已经越来越不能满足业务需求。在引入深度学习技术处理复杂文本的时,一种文本的分布式表示方法——词向量,已经成为文本挖掘任务中至关重要的一环。词向量表达能力的强弱,往往会直接影响后续文本挖掘任务。

相比于传统的one-hot、TF-IDF文本表示技术,词向量在向量化文本的过程中可有效的保留部分语义信息,向量空间的距离对应了相应词的语义相似度,这使得各种文本挖掘任务效果有了很大提升。以上研究中,使用的词向量都是由本领域专业语料库训练而来。然而,词向量的表达能力取决于训练语料库的大小和质量,由于电力行业语料库的匮乏,单个系统积累的文本往往难以达到这个级别,使得训练的词向量效果也相对较差。

发明内容

为了解决现有技术中存在的缺点和不足,本发明提供了基于深度神经网络的电力检修文本挖掘方法,通过使用神经网络算法能够提高文本识别的准确性。

为了达到上述技术目的,本发明提供了基于深度神经网络的电力检修文本挖掘方法,所述文本挖掘方法,包括:

获取由电力服务热线服务系统生成的电力检修文本;

对获取到的电力检修文本进行由文本数据向数值型数据转换的处理;

对处理后的数据进行基于神经网络的语义分类,得到表明具体需求的分类结果。

可选的,所述对获取到的电力检修文本进行由文本数据向数值型数据转换的处理,包括:

使用Skip-gram模型的中word2vec分布式表示方法完成词向量的训练过程,

变量Xk为输入词语,y1j,y2j...ycj为Xk对应的上下文词语。hi为隐层变量,词向量即为模型训练完成后隐层的偏置矩阵。

可选的,所述对处理后的数据进行基于神经网络的语义分类,得到表明具体需求的分类结果,包括:

对处理后的数据进行包括数据清洗在内的预处理操作;

为了对比不同的词向量对算法的影响,模型会输入不同预训练词向量,然后将词向量输入到不同的神经网络模型中进行训练和分类。

本发明提供的技术方案带来的有益效果是:

本文首先研究了电力行业文本挖掘技术,发现已有研究大多使用本行业小规模专业语料库进行词向量的训练。这种研究方式由于语料库词汇规模的限制,在一定程度上影响了词向量的表达能力。本文以95598系统的检修记录作为研究对象,引入外部大规模通用预训练词向量到电力行业文本挖掘中来。并通过基于深度神经网络的Text-CNN和BiLSTM分类模型来验证不同词向量对文本分类任务的影响。实验证明,大规模外部通用预训练词向量的引入可以大幅提升文本分类效果,这说明引入外部知识可以有效地提升电网行业文本挖掘任务的效果。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司杭州供电公司;浙江华云信息科技有限公司,未经国网浙江省电力有限公司杭州供电公司;浙江华云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811518919.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top