[发明专利]一种基于半监督学习的空管系统危险源关键特征提取方法在审
申请号: | 202211706176.X | 申请日: | 2022-12-26 |
公开(公告)号: | CN116090454A | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 曾维理;蔡志鹏;周亚东;郭子逸;汤新民;朱聃;谭湘花 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F18/22;G06F18/23;G06F18/211;G06Q10/0635;G06Q50/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 系统 危险源 关键 特征 提取 方法 | ||
1.一种基于半监督学习的空管系统危险源关键特征提取方法,其特征在于,包括以下步骤:
(1)预先获取危险源文本数据并对数据进行预处理,获得数据集;
(2)按专业划分数据集并分别搭建危险源特征库;
(3)对危险源文本进行分词处理;
(4)危险源候选特征构造:对分词结果进行文本特征统计,将高频短语组合后进行组合词的词频统计,通过统计高频短语共同出现的概率判断短语组合是否具有普适性和强表征力;
(5)候选特征集聚类:采用文本的统计、组合信息进行危险源候选特征的向量化表述,然后通过对向量化危险源候选特征进行基于欧式距离的相似度分析,最后得到候选特征集聚类的结果;
(6)关键特征选择及规范化:将通过反馈调节的方式对候选特征集聚类低概率簇的危险源特征进行筛选与关联,避免危险源遗漏和错误分类,再依据概率和人工提取的结果进行规范化描述得到空管危险源初始特征库。
2.根据权利要求1所述的一种基于半监督学习的空管系统危险源关键特征提取方法,其特征在于,步骤(1)所述的数据集包括危险源编号、危险源描述和触发因素三个属性数据;所述危险源编号包含数据的记录时间和上报地区信息;所述危险源描述和触发因素是上报人员对不安全事件的描述文本。
3.根据权利要求1所述的一种基于半监督学习的空管系统危险源关键特征提取方法,其特征在于,步骤(1)所述数据预处理实现过程如下:
重复数据,按照危险源编号的唯一性原则进行筛选和剔除;
缺失值和异常值处理:危险源关键特征提取”主要目标是从“危险源描述”和“触发因素”两个属性中提取关键特征;
缺失值和异常处理的规则:在重复值处理基础上,去除“危险源描述”和“触发因素”两个属性同时存在缺失值和异常值的数据。
4.根据权利要求1所述的一种基于半监督学习的空管系统危险源关键特征提取方法,其特征在于,步骤(2)所述专业为管制、通导、气象和飞服四个专业。
5.根据权利要求1所述的一种基于半监督学习的空管系统危险源关键特征提取方法,其特征在于,所述步骤(3)实现过程如下:
(31)词典检索:确定词典的最大短语长度L,完成单次匹配的结束条件;
(32)正向最大匹配:通过正向检索待划分句子,不断迭代实现最大正常长度短语的匹配,具体步骤如下:
(321)待匹配短语的生成:判断待分词句子的字符长度是否大于L,如果句子字符长度大于L按照正向选择前L个字符生成待匹配短语{x1,x2,...,xmax_leagth},不满足条件的句子将所有字符组成待匹配短语;当待分词句子长度为0时终止匹配;
(322)词典匹配:将待匹配短语与匹配词典中的所有短语或字进行对比,当两者完全相同包括排列顺序时,认为匹配成功进行储存并将匹配成功的短语或词从待分词句子删除,重新执行待匹配短语的生成步骤;如果匹配失败,则如式(1)所示,删除待匹配短语最右边的一个字符继续执行词典匹配:
{x1,x2,...,xmax_leagth}→{x1,x2,...,xmax_leagth-1}; (1)
(33)反向最大匹配:在待匹配短语的生成步骤上选择从待分词句子最后一个字符进行扫描、在删除待匹配短语上,如式(2)所示,删除待匹配短语最左边的一个字符继续执行词典匹配:
{x1,x2,...,xmax_leagth}→{x2,x3,...,xmax_leagth} (2)
(34)双向最大匹配:统计正向和反向最大匹配分词结果进行短语字符长度统计和短语个数的统计;
(35)遵循最少词原则和最大匹配长度原则将两组匹配结果进行综合,如式(3)所示,分别计算两种分词结果的权重系数w:
w=ζmatwmat+ζleastwleast (3)
其中,wmat是基于最大匹配原则的分词结果量化,短语越明确权重系数wmat越大;wleast为基于最少词原则,依据短语个数、单字个数和非词典短语个数进行分词结果量化;ζmat和ζleast分别为wmat和wleast的权重系数,根据整体危险源文本进行调节。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211706176.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金属板材轧制设备
- 下一篇:一种配料方法及设备