[发明专利]一种警情文本的标准案发时间提取方法及系统在审
| 申请号: | 202011195667.3 | 申请日: | 2020-10-30 |
| 公开(公告)号: | CN112541075A | 公开(公告)日: | 2021-03-23 |
| 发明(设计)人: | 叶恺翔;吕晓宝;王坚;胡祥月;宋剑锋;王元兵;王海荣 | 申请(专利权)人: | 中科曙光南京研究院有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F40/295;G06Q50/26 |
| 代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 窦贤宇 |
| 地址: | 211102 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 标准 案发 时间 提取 方法 系统 | ||
本发明公开了一种警情文本的标准案发时间提取方法及系统,属于公安警情文本提取技术领域。包括以下步骤:将警情文本中的时间要素以命名实体识别的方式按顺序依次进行提取;将警情文本切分成多个文本分句,并构建文本分句与时间要素的键值对;建立并训练案发时间识别模型,通过案发时间识别模型对文本分句中的表述内容进行识别以确定案发时间;将确定的案发时间进行标准化处理;对标准化处理后的案发时间进行合并处理,并进一步对合并后的案发时间进行标记。本发明在命名实体识别时间要素的基础上增加案发时间识别模型,准确识别并提取案发时间信息,为民警快速准确分析警情、核查警情提供业务便利和支持。
技术领域
本发明属于公安警情文本提取技术领域,尤其是一种警情文本的标准案发时间提取方法及系统。
背景技术
文本中的时间要素提取技术已经比较成熟,作为一种命名实体识别任务,正则表达式、序列标注模型等方法都可以取得很好的效果。其中,正则表达式基于固定的时间表述模板对文本进行匹配;而序列标注模型依赖事先标注好的文本数据,通过人工的标签让机器学习到时间要素在文本序列中的特征。
但是在公安警情系统中,如何区分警情文本中每个时间要素的属性并将其转化为标准的时间格式以进行多个时间关系的推理,都是目前的技术没有涉及到的。警情文本中的时间要素分为报警时间、案发时间以及其它背景时间等。其中,案发时间在特定的场景下是一个时间段或时间点。目前,现有技术中的现有模型难以对警情文本中的案发时间的进行准确提取,大大增加民警的业务压力。
发明内容
本发明提供了一种警情文本的标准案发时间提取方法及系统,以解决现有技术中存在的问题。
为实现上述目的,本发明采用以下技术方案:
一种警情文本的标准案发时间提取方法,包括:
步骤1:将警情文本中的时间要素以命名实体识别的方式按顺序依次进行提取;
步骤2:将警情文本切分成多个文本分句,并构建文本分句与时间要素的键值对;
步骤3:建立并训练案发时间识别模型,通过案发时间识别模型对文本分句中的表述内容进行识别以确定案发时间;
步骤4:将确定的案发时间进行标准化处理;
步骤5:对标准化处理后的案发时间进行合并处理,并进一步对合并后的案发时间进行标记。
在进一步的实施例中,所述步骤1采用正则表达式提取时间要素,具体过程为:
步骤11:首先去除警情文本中括号内的内容,排除括号内容中的时间要素干扰信息;
步骤12:然后利用正则表达式对文本中的时间要素进行提取,正则表达式为:([0-9]{4}年)?([0-9]{1,2}月)?([0-9]{1,2}日)?(今|昨|前)?[\\u4E00-\\u9FA5]?(夜|早|上午|下午|晚)?[\\u4E00-\\u9FA5]?([0-9]{0,2}[时|点])?([0-9]{0,2}分);
式中:
([0-9]{4}年),表示四位数字加“年”,用来匹配年时间;
([0-9]{1,2}月),表示一位或两位数字加“月”,用来匹配月时间;
([0-9]{1,2}日),表示一位或两位数字加“日”,用来匹配日时间;
(今|昨|前)[\\u4E00-\\u9FA5],用来匹配“今天”、“昨天”以及“前天”的相对日期描述;
(夜|早|上午|下午|晚)[\\u4E00-\\u9FA5],用来匹配“夜里”、“早上”、“上午”、“下午”的时段描述;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科曙光南京研究院有限公司,未经中科曙光南京研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011195667.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种受热均匀节省能源的灯具用热板模具
- 下一篇:一种动簧与轭铁的连接结构





