[发明专利]一种用于电气图纸智能识别的数据预处理方法及系统在审
申请号: | 201911206281.5 | 申请日: | 2019-11-29 |
公开(公告)号: | CN111027429A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 陈韬文 | 申请(专利权)人: | 陈韬文 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 何文聪 |
地址: | 510006 广东省广州市番禺区小谷围*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 电气 图纸 智能 识别 数据 预处理 方法 系统 | ||
本发明公开了一种用于电气图纸智能识别的数据预处理方法及系统,方法包括:对电气图纸的文本进行第一预处理,得到处理后的文本数据;对电气图纸的圆弧进行第二预处理,得到处理后的圆弧数据;对电气图纸的直线进行第三预处理,得到处理后的直线数据;对电气图纸的圆和椭圆进行第四预处理,得到处理后的圆和椭圆数据;对电气图纸的图签进行过滤处理,得到处理后的图签数据。本发明使用预设的方法对电气图纸进行数据预处理,对图纸中文本、圆弧、直线、圆和椭圆以及图签进行数据预处理或过滤处理,由于图纸数据经过了预处理,显著提升了后续智能识别算法的准确率和识别效率。本发明可广泛应用于电气行业人工智能技术领域。
技术领域
本发明涉及电气行业人工智能技术领域,尤其是一种用于电气图纸智能识别的数据预处理方法及系统。
背景技术
在电气行业,成套电气报价员需要根据从用户拿到的CAD电气设计图给出成套电气设备的报价。根据用户给的CAD图纸列出清单列表,是报价中最重要的一个环节,也是成套电气报价的基础。作为一个有些枯燥繁琐但又需要有一定领域知识的环节,传统的成套电气报价员的报价方式主要是通过手工输入Excel的方式或者用软件的方式把元器件文本扒取出来,列出清单列表,再汇总出报价清单,最后再根据这样的清单进行报价。
但这是一种手工半手工的处理方式,不仅很大程度上依赖于报价员本人的背景知识和能力,需要报价员根据背景知识快速判断和查找出元器件的文本及类型,以及去推断设计师在图纸中所表达的真正意图。因此报价环节是一项非常繁琐和花费时间,效率十分低下的工作,整个工作过程还很容易出错,需要在后期的过程中反复校对以避免出错,严重影响工程的进度,甚至导致企业竞标失败或亏损。总之,这种传统的只能通过手工或半手工列清单的方式,极大程度上限制了报价员报价的速度与精度,不能满足用户及公司的对快速精准报价方面要求,也影响了工程的进度。
针对成套电气报价领域,通过人工智能的方式去识别图纸时必然之路。由于数据的预处理在人工智能算法中占据了很大的比重,数据的预处理是人工智能识别图纸必然需要处理的步骤。数据预处理过程需要结合特定应用领域的知识和背景来与处理数据,但是目前在电气工业人工智能领域,还没有专门针对电气图纸智能识别行之有效的数据预处理方法。
发明内容
有鉴于此,本发明实施例提供一种有效的电气图纸智能识别的预处理方法及系统。
本发明提供了一种用于电气图纸智能识别的数据预处理方法,包括以下步骤:
对电气图纸的文本进行第一预处理,得到处理后的文本数据;
对电气图纸的圆弧进行第二预处理,得到处理后的圆弧数据;
对电气图纸的直线进行第三预处理,得到处理后的直线数据;
对电气图纸的圆和椭圆进行第四预处理,得到处理后的圆和椭圆数据;
对电气图纸的图签进行过滤处理,得到处理后的图签数据。
进一步,所述对电气图纸的文本进行第一预处理,得到处理后的文本数据这一步骤,包括以下步骤:
获取电气图纸的文本高度,并处理得到第一文本阈值和第二文本阈值,过滤掉文本高度大于第一文本阈值或小于第二文本阈值的文本;
使用正则表达式过滤所述电气图纸的文本;
对所述过滤后的文本进行拼接合并;
用分隔符将所述过滤后的文本分隔。
进一步,所述对电气图纸的圆弧进行预处理,得到处理后的圆弧数据这一步骤,包括以下步骤:
根据圆弧的起始角度,将圆弧处理为圆;
将多条半径一致且形成闭环的圆弧处理为圆;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈韬文,未经陈韬文许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911206281.5/2.html,转载请声明来源钻瓜专利网。