[发明专利]一种基于文本处理的异常事件分类方法及系统在审
| 申请号: | 202011183923.7 | 申请日: | 2020-10-29 |
| 公开(公告)号: | CN112632274A | 公开(公告)日: | 2021-04-09 |
| 发明(设计)人: | 叶恺翔;吕晓宝;张谦;孙亚文;姚伯祥;王元兵;王海荣 | 申请(专利权)人: | 中科曙光南京研究院有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06Q50/26;G06K9/62 |
| 代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 窦贤宇 |
| 地址: | 211102 江苏省南京*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 处理 异常 事件 分类 方法 系统 | ||
本发明公开了一种基于文本处理的异常事件分类方法及系统,通过朴素贝叶斯对文本进行分类,证明该文本与此标签有强关联性;利用BERT模型进行异常事件标签分类;根据BERT模型与业务逻辑模型结合进行判别,根据人工的规则调整BERT的输出权重,通过朴素贝叶斯模型特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再根据概率分布,求出在输入条件下,使得后验概率最大的输出;在结合朴素贝叶斯、BERT模型以及业务逻辑模型,实现了异常事件数据的自动分类标注,进而辅助安全行业的异常事件分析业务。将BERT模型利用在了异常事件分类上,与朴素贝叶斯模型相结合,并针对不同种类的标签分类任务融合了相关的业务知识,进行了不同的模型调整。
技术领域
本发明涉及一种自然语言处理技术,尤其是一种基于文本处理的异常事件分类方法及系统。
背景技术
异常事件分类是指对一条异常事件通过自然语言处理算法进行标签分类标记,标签包括接警类型、事件类型、案由类型、地址区域类型,现在的异常事件文本分类,主要的算法为朴素贝叶斯与TextCNN。
其中朴素贝叶斯是一种简单的模型,依赖于词袋模型,只能统计宏观上的语义特征,无法获取词语位置信息,以及词语间的相互关系,是一种低级模型,准确率低,而TextCNN是一种以文本为输入的卷积神经网络,有如下几个主要的缺陷:1、依赖分词以及训练好的词向量,对于异常事件文本,训练一套通用的词向量需要依赖地名、专有名词等实体的识别,工作量很大;2、一条异常事件所属分类其实只由文本中的几个词汇就能体现,而神经网络无法将注意力集中于输入文本序列的特定片段,导致判别准确率较低;3、卷积神经网络采用一个滑动窗口对输入文本进行扫描,因此无法获得不相邻词汇之间的联系,模型难以获得一个较好的语义表征能力。
发明内容
发明目的:提供一种基于文本处理的异常事件分类方法,以解决上述问题。
技术方案:一种基于文本处理的异常事件分类方法,其特征在于包括如下步骤:
步骤1、设定朴素贝叶斯模型;
步骤2、利用BERT进行异常事件标签分类;
步骤3、根据业务逻辑模型判断异常事件类型。
根据本发明的一个方面,所述步骤1中所述朴素贝叶斯模型以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于概率分布,求出在输入条件下,使得后验概率最大的输出的设定首先基于原始的异常事件文本数据,用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示,进行数据预处理,然后将文本进行分词,每个词语作为朴素贝叶斯的输入特征,文本的标签作为模型的输出,统计每类文档标签下的词语概率分布,生成模型,利用参数学习到一个宏观层面的分类模型。
根据本发明的一个方面,所述步骤2中所述异常事件标签分类包括基于原始的异常事件文本数据、基于异常事件文本以及对应的各类异常事件标签、Fine-tune微调、文本数据与标签数据的评分,所述基于原始的异常事件文本数据、对BERT模型进行一个参数预训练,让BERT模型学习到异常事件文本的内在语言逻辑和表达,用与朴素贝叶斯相同的预处理方式,然后,对每一条文本进行Token编码处理,并对每一句话进行截断和补零处理,令每一句的长度相同;所述于异常事件文本以及对应的各类异常事件标签在预训练好的BERT模型的下游添加一个全连接的判别层,进行Mask LM和Next Sentence Prediction两类任务的训练;所述Fine-tune微调根据不同类型的异常事件标签分类任务,对文本采取不同的预处理模式;所述文本数据与标签数据的评分在之前预训练的BERT模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax 层,以获得每一个标签的评分。
根据本发明的一个方面,所述步骤3中所述业务逻辑模型通过人工对文本数据的规律总结以及异常事件其它字段的提取,结合相关的业务知识,用正则表达式、关键词匹配方式给这些类在输出层加一个微小的分值,以辅助BERT的判别,具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科曙光南京研究院有限公司,未经中科曙光南京研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011183923.7/2.html,转载请声明来源钻瓜专利网。





