[发明专利]一种电网设计评审指标结构信息识别方法在审
| 申请号: | 201510680028.9 | 申请日: | 2015-10-19 |
| 公开(公告)号: | CN105389302A | 公开(公告)日: | 2016-03-09 |
| 发明(设计)人: | 陈锟;陈清财;邓小玉;汤步洲;吴小蕙;曾兰 | 申请(专利权)人: | 广东电网有限责任公司电网规划研究中心 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06Q50/06 |
| 代理公司: | 广州知友专利商标代理有限公司 44104 | 代理人: | 周克佑 |
| 地址: | 510080 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 电网 设计 评审 指标 结构 信息 识别 方法 | ||
技术领域
本发明涉及数据处理领域和电力系统设计领域,尤其涉及一种电网设计评审指标结构信息识别方法。
背景技术
一直以来,在电网工程设计评审应用领域,存在无法从电网工程设计文档中准确提取关键技术指标供评审的问题。导致评审专家需要现场获取大量关键技术指标信息,评审标准不统一、评审效率低、评审效果差。通过机器学习方法,可以利用专家知识对电网工程设计评审报告文档中的有意义的指标值(如新建变电站主变的功率、新建线路工程的曲折系数)进行抽取。然而,由于电网工程设计评审文档中需要抽取的指标不仅存在通过电网工程和指标名称可唯一确定的简单指标,而且大量存在电网工程设计评审体系中的复杂指标需要综合考虑各种文档结构信息才能够有效识别,例如对于可行性研究报告中存在多个线路工程的情况,任何一个线路指标均需要确定其所对应的线路工程。对于电力设计评审报告文档的指标识别,需要解析其文档描述对应指标的结构信息。
经过研究发现,电网工程初步设计文档和电网工程可行性研究报告文档作为指导电网工程建设的设计文档,具有较为复杂的文档结构,有以下几大特点:
(1)文档段落结构复杂,不同研究院或不同编写团队提交的文档段落结构不一致,但是一般每个章节或小章节只涉及一类或部分类别指标。文档章节段落结构信息能够有效的排除或初筛一部分指标,提高识别效率和性能。
(2)部分复杂指标具有层级结构,如“接线方式”,其属性有“工期”和“电压等级”。对于该类复杂指标,需要确定其各个层级属性的取值。
(3)往往在电网工程文档会同时罗列几套方案供对比参考,只有一套方案被推荐采用,而推荐采用的方案内的指标通常是更应该被关注的内容。
(4)对于电网工程可行性研究报告,每份报告中会同时提及几个分工程,一个报告文档中可能获得多个不同取值的指标,这些指标分别对应不同的分工程,需要将分工程提及的指标分别对应至相应的分工程。
发明内容
为解决现有技术的问题,本发明的目的在于提供一种电网设计评审指标结构信息识别方法。
本发明的目的可通过以下的技术措施来实现:
一种电网设计评审指标结构信息识别方法,包括如下步骤:
段落信息识别:识别文章段落结构,对文本切分并按照切分后的段落所涉及的类别归并;
指标对应属性识别:匹配每个待识别所对应属性的指标的多个属性值;
指标可选方案匹配:匹配每个指标的所对应的备选方案,并确定何种候选方案为推荐方案;
电网分工程识别与指标对应:识别分工程的作用域,匹配每个指标对应的分工程信息。
所述段落信息识别包括如下步骤:
文档归一化处理:将文档转换为以行为单位的文本流,同时修正因转换格式带来的错误;
章节识别与去噪:识别正确的章节目录信息,去掉错误的噪音信息;
章节标题抽取:抽取得到正确的章节标题和文档结构;
章节信息识别:提供对每一个章节标题进行分类、关键词抽取、上下文结构对应的功能。
所述章节信息识别步骤包括如下步骤:
章节分类:对章节按照章节标题进行文本分类,分成六类章节;
章节关键词抽取:对章节抽取最能体现章节信息的关键词;
上下为结构对应:提供任意章节的父章节、子章节列表和兄弟章节列表。
所述指标对应属性识别步骤包括如下步骤:
属性归并:分析指标体系结构,将同类指标的同类属性进行合并;
属性抽取:将对属性按照归并后的指标体系进行抽取;
指标属性对应:确定指标和属性的对应关系。
所述指标可选方案匹配包括如下步骤:
方案作用域确定:通过查找方案描述关键词,确定方案作用域;
指标方案匹配:确定指标和方案的匹配关系;
推荐方案确定:识别电网设计评审报告中描述推荐方案的语句,确定推荐方案。
所述电网分工程识别与指标对应中包括如下步骤:
电网分工程名称识别:从电网设计评审报告中抽取其描述的分工程名称;
电网分工程链接对应:通过给定的标注分工程名称,模糊匹配对应到电网设计评审报告抽取的分工程名称;
电网分工程作用域识别:确定任意指标其所对应的电网评审设计报告抽取的分工程名称;
指标分工程对应:确定任意指标其所对应的规范的工程名称。
本发明对比现有技术,有如下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司电网规划研究中心,未经广东电网有限责任公司电网规划研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510680028.9/2.html,转载请声明来源钻瓜专利网。





