[发明专利]一种基于半监督学习的空管系统危险源关键特征提取方法在审
申请号: | 202211706176.X | 申请日: | 2022-12-26 |
公开(公告)号: | CN116090454A | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 曾维理;蔡志鹏;周亚东;郭子逸;汤新民;朱聃;谭湘花 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F18/22;G06F18/23;G06F18/211;G06Q10/0635;G06Q50/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 系统 危险源 关键 特征 提取 方法 | ||
本发明公开了一种基于半监督学习的空管系统危险源关键特征提取方法,预先获取危险源文本数据并对数据进行预处理,获得数据集;按专业划分数据集并分别搭建危险源特征库;对危险源文本进行分词处理;对分词结果进行文本特征统计,将高频短语组合后进行组合词的词频统计,采用文本的统计、组合信息进行危险源候选特征的向量化表述,通过对向量化危险源候选特征进行基于欧式距离的相似度分析,得到候选特征集聚类的结果;对关键特征选择及规范化处理。本发明通过半监督的训练模式对不规范、描述模糊的文本描述方式进行识别、归类和评估,使得模型具有分析异常文本的能力,进而实现对海量不安全事件信息的危险源关键特征提取。
技术领域
本发明属于民航空管数字化与智能化技术领域,具体涉及一种基于半监督学习的空管系统危险源关键特征提取方法。
背景技术
近年来,随着民航运输需求量的快速增长,为了提高安全保障能力,航空业在收集航空不安全信息上进行大量技术改进。随着不安全事件文档数量的增长,安全专家不再可能详尽阅读所有文档。因此,在不深入分析文档的情况下,通过自动危险源关键特征提取方法分析文档主题是至关重要的。其中,关键特征能够在一定程度上消除文本撰写中描述口语化、不规范以及理解偏差等问题,可以为空管不安全事件编写以及危险源识别提供参考。通过对空管不安全事件危险源的分析,能够使人工编写的非结构化文本数据转变成结构化文本,能够深入探索当前不同时间或空间维度下显著的危险源,对于“预防式”空管安全管理、空管“数字化”水平的提升和规范化信息处理平台的搭建都有着至关重要的作用。另外,危险源关键特征提取方法提供的结构化数据还是安全风险评估、致因挖掘的前提和基础。
危险源关键特征提取的主要目标是识别最能代表不安全事件危险源的短语。然而,由于自然语言的复杂性、输入文档类型的异质性以及需要提取的关键特征的类型,导致提取关键特征具有极大的挑战性。现阶段,如何定义文档中短语的重要性、特异性对于关键特征提取结果具有显著影响,因为它决定了关键特征提取的策略。特征重要性主要由形态句法、短语的统计属性、文本来源等关键度计算特征定义。由于不安全事件多为叙述类文本,目前对于叙述类文本的关键度计算多侧重以下两点:1)短语的统计属性:通过词频(TF)计算短语的重要度、逆文档频率分析短语的特殊性。2)句法结构:名词短语作为关键词有助于提高提取的准确性,同时根据文档类型预设的词性组合模式提取单词或短语可以显著提高特征提取的召回值。
但在特征提取过程中发现,自愿上报的数据是由上报人根据个人对事件的理解进行描述,因此存在对于相同事件和危险源,不同人在文字描述上也会存在较大偏差。此外,民航业具有较高的专业壁垒,因此非专业人员上传的不安全事件信息存在描述模糊、专业名词使用错误等问题。所以,本发明从自动危险源特征提取模型的训练方式上入手,采用半监督的训练模型引入了专家打分、特征归类选择和分析模块,对关键特征提取的模型进行完善,提高对非专业、不规范的文本描述的特征提取精度。
发明内容
发明目的:针对不安全事件危险源关键特征提取方法存在的上述问题,本发明提出一种基于半监督学习的空管系统危险源关键特征提取方法,通过半监督的训练模式对不规范、描述模糊的文本描述方式进行识别、归类和评估,使得模型具有分析异常文本的能力,进而实现对海量不安全事件信息的危险源关键特征提取。
技术方案:本发明提供了一种基于半监督学习的空管系统危险源关键特征提取方法,具体包括以下步骤:
(1)预先获取危险源文本数据并对数据进行预处理,获得数据集;
(2)按专业划分数据集并分别搭建危险源特征库;
(3)对危险源文本进行分词处理;
(4)危险源候选特征构造:对分词结果进行文本特征统计,将高频短语组合后进行组合词的词频统计,通过统计高频短语共同出现的概率判断短语组合是否具有普适性和强表征力;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211706176.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金属板材轧制设备
- 下一篇:一种配料方法及设备