[发明专利]一种基于BERT模型的航空安全报告多原因分类方法在审

专利信息
申请号: 202210653697.7 申请日: 2022-06-09
公开(公告)号: CN114925777A 公开(公告)日: 2022-08-19
发明(设计)人: 胡昊;李润至;张志鹏;戴磊;徐峰;张诗雯;伊涵;贾博;孙延进;李福娟 申请(专利权)人: 上海交通大学
主分类号: G06K9/62 分类号: G06K9/62;G06F40/289;G06F40/242;G06N3/08
代理公司: 上海科盛知识产权代理有限公司 31225 代理人: 杨宏泰
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bert 模型 航空安全 报告 原因 分类 方法
【权利要求书】:

1.一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,包括以下步骤:

S1、构建航空不安全事故的历史数据集;

S2、对历史数据集进行数据预处理;

S3、构建BERT模型,包括模型微调、模型训练和模型评估;

S4、对于训练好的BERT模型实时输入数据集并预测不同层次的事故原因类别。

2.根据权利要求1所述的一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,所述的步骤S1中,基于美国NTSB航空不安全事故报告数据库,提取包括事故描述和事故原因的历史数据,构成用于训练和评估BERT模型的历史数据集。

3.根据权利要求2所述的一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,所述的步骤S1具体包括以下步骤:

S101、对NTSB数据收录的航空事故报告对应的数据摘录,将Microsoft Access格式转化为SQL格式,以便进行数据查询分析;

S102、选取截至日期前的多份NTSB航空安全报告,处理后数据集中包括事故叙述摘录narr_accf、原因顺序seq_events_no、主题代码Subj_Code,其中,主题代码Subj_Code用以标识导致事故的个人、设备、过程、现象详细原因类别,每条事故叙述摘录narr_accf具有原因类别Subj_Code,并通过符号+按照顺序连接多个Subj_Code。

4.根据权利要求3所述的一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,所述的步骤S2具体包括以下步骤:

S201、根据文本特点和模型性质,对数据进行清洗操作;

S202、利用词片分词器对清洗后的数据进行文本分词,按照从左到右的顺序切分词语,使得当前切分的子词语达到最大长度,同理,将一个词语拆为多个子词语;

S203、结合FAA发布的JASC构建事故原因类别的层次结构,并基于该层次结构对数据进行标注,从而形成具有不同层次标签的三份数据集。

5.根据权利要求4所述的一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,所述的步骤S201中,对数据进行清洗操作主要包括将缩写转为全写、去除单词中的标点符号和换行号、将单词小写化、去除停用词、去除含数字的单词、检查拼写错误以及纠正拼错的单词。

6.根据权利要求4所述的一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,所述的步骤S203中,在事故原因类别的层次结构中,第一、二、三层包含的元素逐渐增多,各层间呈递进树状结构,随着层数加深,事故原因类别更加详细,用以提供更丰富的事故信息,第三层的原因类别均有相应的编码标签,该编码与Subj_Code前2或3位数字对应。

7.根据权利要求1所述的一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,所述的步骤S3具体包括以下步骤:

S301、对预训练BERT模型进行微调,构建适用于多标签分类任务的BERT模型;

S302、以三份不同层次原因标签的数据集作为实验数据,分别开展三组实验,在每组实验中,均采用十折交叉验证法,按9:1的比例划分得到10份训练集和验证集,进行10次实验,最终取10次结果的平均值作为每组实验的结果,从而得到三个已训练的BERT多标签分类模型;

S303、对于已训练的三个BERT多标签分类模型,分别计算模型的前k个输出的准确率、模型的F1值、模型的AUC值以及模型的汉明损失进行模型评估。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210653697.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top