[发明专利]一种基于机器学习的斜拉桥非结构化监测数据处理方法在审
申请号: | 201910561286.3 | 申请日: | 2019-06-26 |
公开(公告)号: | CN110781333A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 陈宇轩;何显银;宋杰;董梅;胡辉 | 申请(专利权)人: | 杭州鲁尔物联科技有限公司 |
主分类号: | G06F16/56 | 分类号: | G06F16/56;G06F16/583;G06N3/04;G06N3/08 |
代理公司: | 33109 杭州杭诚专利事务所有限公司 | 代理人: | 尉伟敏 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 非结构化 评价模型 桥梁检测 特征向量 文本数据 词向量 非结构化数据 计算能力要求 监测数据处理 神经网络算法 提取图像数据 实质性效果 处理流程 基于机器 模型生成 算法训练 随机森林 图像数据 原始数据 斜拉桥 准确率 拼接 分析 学习 图片 | ||
本发明公开了一种基于机器学习的斜拉桥非结构化监测数据处理方法,能够用于对桥梁检测报告的评价,包括以下步骤:S1:从原始数据中提取图像数据及所需文本数据;S2:对文本数据采用Word2Vec模型生成词向量,对图像数据采用神经网络算法生成图片的特征向量;S3:将词向量及特征向量拼接,通过随机森林算法训练,得到评价模型。本发明的实质性效果包括:能够对桥梁检测报告等非结构化的数据进行分析和处理,简化非结构化数据的处理流程,同时对硬件的计算能力要求较低,准确率较高,能较好地实现评价模型的建立。
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于机器学习的斜拉桥非结构化监测数据处理方法。
背景技术
为保证桥梁安全运营,必须要对其进行定期检测与评估。目前行业内对于大型桥梁通常采用两年一次或一年一次的人工检查,同时根据检查结果按照《公路桥梁技术状况评定标准》进行综合评估,最后以检测报告的形式进行呈现。
作为一种较权威的桥梁健康状况评定方法,桥梁检测报告往往会尽可能详尽的阐述所检测桥梁的病害信息,通常针对一座桥梁的检测报告会达到几百页之多,此外,检测报告大多是基于文字和图片描述的方式将检测结果进行呈现,这些大量的非结构化数据严重影响着读者的阅读效率。另一方面,桥梁健康状况综合评分大多是由专业人士根据复杂的打分机制完成的,在这个过程中,评分人员需要仔细的检查每一处病害信息,由此造成了大量的时间与资源浪费。在自然语言处理技术方面,常用的TF-IDF词频-逆文本频率指数算法与LDA主题生成模型算法的词向量特征维度往往会很高,对于计算力的需求也会非常大,而且其处理对象也大多以文本格式为主,对于检测报告这种文本与图片结合的资料,其作用是十分有限的。
授权公告号CN103761337B的发明公开了一种非结构化数据处理方法及系统。该非结构化数据处理方法包括以下步骤:设置多个包括关键词的特征模板;分别使用各个特征模板扫描存储有多条非结构化数据的数据库,针对各条非结构化数据分别判断其中是否记载有和各个特征模板一致的内容,并将判断结果为是的特征模板作为各条非结构化数据匹配的特征模板记录;生成与该多条非结构化数据分别一一对应的多个模板向量,每个模板向量具有一一对应于该多个特征模板的多个维度。
现有技术的向量特征维度较高,对于计算力的需求较大,执行效果不佳。
发明内容
针对现有技术在处理过程中向量特征维度过高,对于计算力的需求过大,且对文本与图片结合的资料作用效果不佳的问题,本发明提供了一种基于机器学习的斜拉桥非结构化监测数据处理方法,通过对非结构化数据中的文本及图像的分析及处理,根据数据处理的结果形成评价模型,运算量小,准确率高,本发明不仅能够在桥梁检测报告的处理上提供较可靠的评价,同时能够适用于其他非结构化数据的处理。
以下是本发明的技术方案。
一种基于机器学习的斜拉桥非结构化监测数据处理方法,包括以下步骤:S1:从原始数据中提取图像数据及所需文本数据;S2:对文本数据采用Word2Vec模型生成词向量,对图像数据采用神经网络算法生成图片的特征向量;S3:将词向量及特征向量拼接,通过随机森林算法训练,得到评价模型。该方法根据处理对象的不同分为两个方面。一方面,对于文本格式的非结构化数据,首先利用现有词典库对其进行分词,去除各类冗余信息,从而获得一系列文本关键词,之后采用Word2Vec模型生成文本词向量。另一方面,对于图片格式的非结构化数据,采用CNN卷积神经网络算法进行处理,随后将最后一层卷积的结果进行拼接,就可以得到图片相关的特征向量,与文本词向量类似,图像特征向量也是用来表征特定信息的工具。两种向量拼接到一起,再通过随机森林算法进行训练,即可得到综合评分模型。
作为优选,所述步骤S1中文本数据的提取过程包括:采用正则化方法并对原始数据进行匹配,提取出所需的文本数据。采用正则化匹配方法是非常高效的方式,它可以根据用户的具体需求进行设置,同时利用计算机的处理能力,实现信息的快速整理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州鲁尔物联科技有限公司,未经杭州鲁尔物联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910561286.3/2.html,转载请声明来源钻瓜专利网。