[发明专利]一种针对配电线路跳闸填报案例的文本挖掘方法有效
| 申请号: | 201910536380.3 | 申请日: | 2019-06-20 |
| 公开(公告)号: | CN110377901B | 公开(公告)日: | 2022-11-18 |
| 发明(设计)人: | 刘绚;尚银辉;车亮;于宗超 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06F40/211;G06K9/62;G06Q50/06 |
| 代理公司: | 长沙正奇专利事务所有限责任公司 43113 | 代理人: | 马强;王娟 |
| 地址: | 410082 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种针对配电线路跳闸填报案例的文本挖掘方法,对已有文本进行分析,获取其分词,词性,句法关系结果,结合文本叙述特征,定义抽取关系,从原始文本中抽取大量事实多元组短语,采用基于word2vec词向量训练模型进行短语相似度筛选,将筛选后的小范围短语基于编辑距离计算确定抽取结果。以某次填报文本为例,给出针对其故障现象及故障原因两部分内容的具体抽取流程结果,最后通过对多个样本抽取结果统计,其两种目标抽取准确率均能达到70%以上。 | ||
| 搜索关键词: | 一种 针对 配电 线路 跳闸 填报 案例 文本 挖掘 方法 | ||
【主权项】:
1.一种针对配电线路跳闸填报案例的文本挖掘方法,其特征在于,包括以下步骤:1)基于电力领域专有词汇建立自定义词典;结合中文常用冗余词汇建立冗余词词典;2)通过对语料库中全部填报文本基于已建立自定义词典进行分词,基于word2vec进行词向量化模型训练,得到词向量化模型;对全部填报文本的分词结果进行词频统计,结合词向量化模型中词语相似词汇确立相似度筛选中的核心词汇;3)基于pyltp对单个填报文本依次进行分词处理,词性标注,句法分析;4)基于实际样本填报特征定义抽取核心词性及相关句法结构的抽取关系,结合步骤3)中的分词、词性及句法结果对实际填报样本中符合相关关系的短语进行抽取,得到多组事实多元组短语;5)基于词向量化模型中词汇相似度,比较步骤4)中事实多元组短语中词汇与步骤2)中所确定的核心词汇之间的相似度,针对不同核心词设立其相似度阈值,阈值范围内的相似词汇为与故障现象或故障原因相关的词汇,基于相似度阈值筛选掉部分事实多元组短语;6)基于步骤2)中核心词汇建立字符编辑典型样本,计算步骤5)中余下的事实多元组短语与典型样本之间的字符编辑距离,最小距离对应的事实多元组短语即确定为最终结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910536380.3/,转载请声明来源钻瓜专利网。





