[发明专利]电网设备分词词典和故障案例库构建方法有效
申请号: | 202110029159.6 | 申请日: | 2021-01-11 |
公开(公告)号: | CN112732934B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 杨祎;秦佳峰;闫丹凤;秦晔;辜超;林颖;白德盟;郑文杰;刘萌;朱庆东;李杰;朱文兵;朱孟兆 | 申请(专利权)人: | 国网山东省电力公司电力科学研究院;北京邮电大学;国家电网有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/33;G06F40/211;G06F40/242;G06F40/247;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 支文彬 |
地址: | 250003 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电网 设备 分词 词典 故障 案例 构建 方法 | ||
1.一种电网设备分词词典和故障案例库构建方法,其特征在于,包括如下步骤:
a)基于命名实体识别算法建立及扩充电网领域词典;
b)对电网设备故障缺陷案例文本进行预处理,所述预处理包括格式转换、去标号、分词;
c)基于自然语言处理方法提取文本数据中的状态量、检修流程和描述语句信息,获得结构化的电网设备故障案例;
d)基于结构化的电网设备故障案例,通过连续型特征分箱、关键词计算TF-IDF值的方法生成文本的特征标签和关键词云;
e)基于特征标签与故障进行关联规则分析,形成案例分析关联规则库;
f)将结构化的电网设备故障案例与特征标签、关键词云、关联规则库构建电网设备故障案例库;
步骤c)包括如下步骤:
c-1)文本数据中提取时采用构建统一的属性模板进行属性提取,属性类型分为数字型状态量属性、词组型状态量属性和句子型状态量属性,实现文本信息结构化;
c-2)利用公式R={(x,y)|x∈A,y∈S},建立电网设备故障文本采用数据模型R的二元组描述,式中A为预定义好的描述属性,S为需要从非结构文本数据中抽取出该属性的状态量,x为具体的描述属性,y为文本数据中抽取出x属性对应的状态量;
步骤c-1)中利用基于规则的方法提取数字型状态量属性,利用基于语法的规则的实体匹配法提取词组型状态量属性,句子型状态量属性利用分布式文本表示和神经网络模型进行分类;
c-1.1)文本数据中数字型状态量的提取中通过文本分词将每个句子中的数字提取出来后根据语法修饰规则,找到数字状态量的单位,将数字和数学单位合并成为完成的状态量并将属性和对应的数字状态量进行匹配,得到最终的属性、状态量二元组;
c-1.2)采用语法修饰规则来匹配状态量及其修饰属性,提取命名实体和命名实体所修饰的词语组成二元组,实现文本数据中词组型状态量属性的提取;
c-1.3)人工标注大于770个句子作为训练数据集,采用Word2vec方法将句子向量化表示,利用R-CNN神经网络进行分类,基于分类的结果进行句子型状态量属性提取,利用公式计算句子向量A与句子向量B的相似度,实现句子的分条表示,|A|、|B|为句中词语数量,从分条后的句子中提取时间、检修手段、状态量三项进行链接,按照时间排序,生成报告的检修过程时间线,以元组列表的形式进行序列化;
步骤d)包括如下步骤:
d-1)对于数值型数据通过指数函数或对数函数变换后通过公式f(x)=φ(x)-minφ(x)位移计算,得到计算结果f(x),式中φ(x)为原始数据的修正函数;
d-2)通过公式计算分箱中第i个分箱的权重WOEi,式中Perror,i=μ+Counterror,i/μ+Counterror,Pother,i=μ+Countother,i/μ+Countother,μ为平滑参数,μ的取值为(0,1],Counterror,i为第i个分箱中故障样本数量,Countother,i为第i个分箱中其他样本数量,Counterror为故障样本总数,Countother为其他样本总数;
d-3)通过公式计算得到分箱对故障的信息价值IVerror,n为分箱的个数,IVerror的最大值大于等于0.3;
d-4)通过步骤d-1)至d-3)确定每种数字型状态量的分箱策略,形成分箱标签并加入到关联分析的项集;
d-5)对于句子型数据,提取其中的关键词加入项集,使用公式计算第i个词在第j个文本中的词频指数TFi,j,式中ni,j为i个词在第j个文本中出现次数,∑kni,k为第i个词在所有文本中出现次数之和,通过公式计算第i个词的逆文本频率指数IDFi,式中D为语料库中文本总数,Di为包含词语的文本数目,通过公式TF-IDFi,j=TFi,j*IDFi计算第i个词在第j个文本中的词频逆文本指数,对挖掘到的关键词统计词频,经过对数函数修正后作为词云展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司电力科学研究院;北京邮电大学;国家电网有限公司,未经国网山东省电力公司电力科学研究院;北京邮电大学;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110029159.6/1.html,转载请声明来源钻瓜专利网。