[发明专利]一种基于BERT模型的航空安全报告多原因分类方法在审
| 申请号: | 202210653697.7 | 申请日: | 2022-06-09 |
| 公开(公告)号: | CN114925777A | 公开(公告)日: | 2022-08-19 |
| 发明(设计)人: | 胡昊;李润至;张志鹏;戴磊;徐峰;张诗雯;伊涵;贾博;孙延进;李福娟 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/289;G06F40/242;G06N3/08 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 bert 模型 航空安全 报告 原因 分类 方法 | ||
1.一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,包括以下步骤:
S1、构建航空不安全事故的历史数据集;
S2、对历史数据集进行数据预处理;
S3、构建BERT模型,包括模型微调、模型训练和模型评估;
S4、对于训练好的BERT模型实时输入数据集并预测不同层次的事故原因类别。
2.根据权利要求1所述的一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,所述的步骤S1中,基于美国NTSB航空不安全事故报告数据库,提取包括事故描述和事故原因的历史数据,构成用于训练和评估BERT模型的历史数据集。
3.根据权利要求2所述的一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,所述的步骤S1具体包括以下步骤:
S101、对NTSB数据收录的航空事故报告对应的数据摘录,将Microsoft Access格式转化为SQL格式,以便进行数据查询分析;
S102、选取截至日期前的多份NTSB航空安全报告,处理后数据集中包括事故叙述摘录narr_accf、原因顺序seq_events_no、主题代码Subj_Code,其中,主题代码Subj_Code用以标识导致事故的个人、设备、过程、现象详细原因类别,每条事故叙述摘录narr_accf具有原因类别Subj_Code,并通过符号+按照顺序连接多个Subj_Code。
4.根据权利要求3所述的一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,所述的步骤S2具体包括以下步骤:
S201、根据文本特点和模型性质,对数据进行清洗操作;
S202、利用词片分词器对清洗后的数据进行文本分词,按照从左到右的顺序切分词语,使得当前切分的子词语达到最大长度,同理,将一个词语拆为多个子词语;
S203、结合FAA发布的JASC构建事故原因类别的层次结构,并基于该层次结构对数据进行标注,从而形成具有不同层次标签的三份数据集。
5.根据权利要求4所述的一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,所述的步骤S201中,对数据进行清洗操作主要包括将缩写转为全写、去除单词中的标点符号和换行号、将单词小写化、去除停用词、去除含数字的单词、检查拼写错误以及纠正拼错的单词。
6.根据权利要求4所述的一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,所述的步骤S203中,在事故原因类别的层次结构中,第一、二、三层包含的元素逐渐增多,各层间呈递进树状结构,随着层数加深,事故原因类别更加详细,用以提供更丰富的事故信息,第三层的原因类别均有相应的编码标签,该编码与Subj_Code前2或3位数字对应。
7.根据权利要求1所述的一种基于BERT模型的航空安全报告多原因分类方法,其特征在于,所述的步骤S3具体包括以下步骤:
S301、对预训练BERT模型进行微调,构建适用于多标签分类任务的BERT模型;
S302、以三份不同层次原因标签的数据集作为实验数据,分别开展三组实验,在每组实验中,均采用十折交叉验证法,按9:1的比例划分得到10份训练集和验证集,进行10次实验,最终取10次结果的平均值作为每组实验的结果,从而得到三个已训练的BERT多标签分类模型;
S303、对于已训练的三个BERT多标签分类模型,分别计算模型的前k个输出的准确率、模型的F1值、模型的AUC值以及模型的汉明损失进行模型评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210653697.7/1.html,转载请声明来源钻瓜专利网。





