[发明专利]一种半结构化文本处理及分析方法在审

专利信息
申请号: 202010771936.X 申请日: 2020-08-04
公开(公告)号: CN111881298A 公开(公告)日: 2020-11-03
发明(设计)人: 杨帆;邱才明;密铁宾 申请(专利权)人: 上海交通大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06Q10/06;G06Q10/00
代理公司: 上海伯瑞杰知识产权代理有限公司 31227 代理人: 孟旭彤
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结构 文本 处理 分析 方法
【说明书】:

发明公开了一种半结构化文本处理及分析方法。所述文本处理及分析方法包括:将树状语义信息转换为词向量,将所述词向量拼接为语义矩阵,输入所述语义矩阵对双向长短期记忆网络按训练标签进行分类训练,根据所述训练标签,所述双向长短期记忆网络的分类器输出设备状态预测结果,本发明能够充分挖掘文本中蕴含的设备状态信息,将半结构化文本量化,并将设备状态分为健康,一般缺陷,重要缺陷,紧急缺陷四类,同时能够精准描述并评估设备健康状态,从而指导运维和检修策略,并且可以结合设备的结构化数据,实现基于异构数据的设备状态监测与评估。

技术领域

本发明涉及文本分类技术领域,具体涉及一种基于海量特种设备检修报告的半结构化文本处理及分析方法。

背景技术

特种设备是指涉及生命安全,危险性比较大的设备,如锅炉、起重机械、压力容器等。特种设备运行维护过程中积累了大量检修报告。检修报告文本中蕴含着丰富的设备状态信息,对于设备的异常检测,缺陷诊断及健康状态评估都有着十分重要的意义。

近年来随着自然语言处理技术的发展,对特种设备检修报告文本进行信息挖掘成为了可能。自然语言处理是人工智能技术的一个分支,目前在文本的理解、分类、摘要、信息抽取、知识问答、生成等方面被广泛的研究和应用。一般而言,针对文本的信息挖掘包括数据预处理、文本表示、特征提取、文本分类等步骤。其中,数据预处理包括分词、去停用词;文本表示即将文本转化为计算机能够识别的形式,如空间向量模型、概率模型、布尔模型等;最后利用统计量、信息增益、分类器等进行特征提取及文本分类,实现文本信息的深度解析。

检修报告属于一种特殊的文本形式,即半结构化文本。半结构化有着较为规范的结构和表达形式,以及较为自由的文本表达内容。往往针对此类文本的挖掘,难点有二:一是根据文本的结构和表达形式,定义知识获取的粒度,对文本进行文法描述和语义分析;二是构造合适的方案,挖掘出检修报告的蕴含的设备状态信息。目前在自然语言处理领域,已有工作通过引入领域本体,对药方、病历、音乐等半结构化文本进行解析。但在工业应用领域,针对检修报告这类半结构化文本的处理与分析仍是空白。因此,如何利用现有的基础,针对海量检修报告进行信息挖掘和设备健康状态评估,是亟需考虑的问题。

发明内容

本发明要解决的技术问题是如何利用自然语言处理技术对特种设备运行维护过程中积累了大量检修报告进行文本预处理和文本分析,提供一种半结构化文本处理及分析方法。

本发明是通过下述技术方案来解决上述技术问题:

一种半结构化文本处理及分析方法,所述文本处理及分析方法包括:

将树状语义信息转换为词向量;

将所述词向量拼接为语义矩阵;

输入所述语义矩阵对双向长短期记忆网络按训练标签进行分类训练;

根据所述训练标签,所述双向长短期记忆网络的分类器输出设备状态预测结果。

进一步地,所述将树状语义信息转换为词向量之前还包括半结构化文本预处理:

参照领域本体及知识获取粒度定义知识抽取规则;

根据所述知识抽取规则对所述半结构化文本进行知识抽取生成所述树状语义信息。

较佳地,根据工程需求及计算资源来确定所述知识获取粒度。

较佳地,所述树状语义信息包括:设备性能参数,检验项目及内容,检验结果及结论。

进一步地,所述训练标签包括:健康状态,一般缺陷状态,重要缺陷状态及紧急缺陷状态。

进一步地,在所述输出设备状态预测结果之后还包括:

设置所述训练标签各状态权重,所述权重包括:健康状态权重,一般缺陷状态权重,重要缺陷状态权重及紧急缺陷状态权重;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010771936.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top