[发明专利]基于正则表达式的极端行为识别方法与装置、设备及介质在审
申请号: | 202010349014.X | 申请日: | 2020-04-28 |
公开(公告)号: | CN113111238A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 彭涛;赵伟;高丽青 | 申请(专利权)人: | 北京明亿科技有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/35;G06Q50/18 |
代理公司: | 北京植德律师事务所 11780 | 代理人: | 唐华东 |
地址: | 100021 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 正则 表达式 极端 行为 识别 方法 装置 设备 介质 | ||
1.一种基于正则表达式的极端行为识别方法,包括:
获取待识别接处警文本;
确定所述待识别接处警文本对应的文本片段集合,其中,文本片段属于所述待识别接处警文本;
对于所述文本片段集合中的文本片段,执行以下识别操作:根据该文本片段的文本长度,确定极端行为识别正则表达式集合中与该文本片段对应的极端行为识别正则表达式,其中,每个极端行为识别正则表达式对应有文本长度范围,该文本片段的文本长度在所确定的与该文本片段对应的极端行为识别正则表达式对应的文本长度范围内;响应于确定该文本片段与所确定的极端行为识别正则表达式匹配,将该文本片段确定为极端行为描述文本;
用所述文本片段集合中确定为极端行为描述文本的各文本片段生成与所述待识别接处警文本对应的极端行为描述文本集合。
2.根据权利要求1所述的方法,其中,所述确定所述待识别接处警文本对应的文本片段集合,其中,文本片段属于所述待识别接处警文本,包括:
将通过滑动窗口截取所述待识别接处警文本中的片段所得到的各文本片段确定为所述文本片段集合。
3.根据权利要求2所述的方法,其中,所述将通过滑动窗口截取所述待识别接处警文本中的片段所得到的各文本片段确定为所述文本片段集合,包括:
新建空的文本片段集合;
对于1到N之间的每个正整数n,执行文本片段截取操作,其中,所述N为所述待识别接处警文本的文本长度,所述文本片段截取操作包括:将滑动窗口的起点确定为所述待识别接处警文本的首字符,以及将所述滑动窗口的窗口长度确定为该正整数n;执行以下滑动窗口文本截取操作:截取所述待识别接处警文本中所述滑动窗口对应的文本,将截取得到的文本添加到所述文本片段集合,以及按照预设步长向后滑动所述滑动窗口,响应于确定所述滑动窗口的终点在所述待识别接处警文本内,继续执行所述滑动窗口文本截取操作;响应于确定所述滑动窗口的终点不在所述待识别接处警文本内,结束所述滑动窗口文本截取操作。
4.根据权利要求1所述的方法,其中,所述极端行为识别正则表达式集合是通过如下训练步骤预先训练得到的:
获取历史极端行为描述文本片段集合和测试样本集合,其中,历史极端行为描述文本片段用于描述极端行为,测试样本包括历史接处警文本片段和对应的用于表征该历史接处警文本片段是否用于描述极端行为的标注信息;
对于预设候选正则表达式数目集合中的候选正则表达式数目M,执行M个候选正则表达式生成操作以生成M个候选正则表达式,以及基于所述测试样本集合对所生成的M个候选正则表达式进行测试以确定与候选正则表达式数目M对应的准确率,其中,所述M个候选正则表达式生成操作包括:根据所述历史极端行为描述文本片段集合中各历史极端行为描述文本片段的文本长度,将所述历史极端行为描述文本片段集合划分成M个历史极端行为描述文本片段子集合,以及基于所得到的每个历史极端行为描述文本片段子集合,生成与该历史极端行为描述文本片段子集合对应的候选正则表达式;
将所生成的最优正则表达式数目个候选正则表达式确定为所述极端行为识别正则表达式集合,其中,所述最优正则表达式数目为所述候选正则表达式数目集合中对应的准确率最高的候选正则表达式数目,所述极端行为识别正则表达式集合中每个极端行为识别正则表达式对应的文本长度范围为生成该极端行为识别正则表达式所基于的历史极端行为描述文本片段子集合中的各历史极端行为描述文本片段的文本长度对应的文本长度范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明亿科技有限公司,未经北京明亿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010349014.X/1.html,转载请声明来源钻瓜专利网。