[发明专利]口语化要素识别方法及装置、警情分析系统在审
申请号: | 202010937545.0 | 申请日: | 2020-09-08 |
公开(公告)号: | CN112016313A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 杜渂;邱祥平;雷霆;王聚全;彭明喜;周赵云;索涛;刘冉东;杨博;刘亮亮;宋平超;林永生;何共晖 | 申请(专利权)人: | 迪爱斯信息技术股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/126;G06N3/04;G06N3/08 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 郭桂峰 |
地址: | 200233 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 口语化 要素 识别 方法 装置 情分 系统 | ||
本发明提供了一种口语化要素识别方法及装置、警情分析系统,其中,口语化要素识别方法中包括:获取待识别文本,并将文本中的字符进行映射得到字符向量;使用预训练的循环神经网络对待识别文本进行特征抽取获取字符向量的上下文编码信息,生成语义编码向量;对字符向量和语义编码向量进行融合编码;使用条件随机场对融合后的向量进行类别判断并输出,实现对待识别文本中的要素进行识别。相比传统的CNN、RNN等网络结构,该模型具有更强的上下文双向特征抽取能力,模型的总体命名实体识别准确度达90.84%。
技术领域
本发明涉及计算机与网络技术领域,尤指一种口语化要素识别方法及装置、警情分析系统。
背景技术
针对数据分析的需求,有些时候需要从一些文本中抽取一些要素,比如搭建智慧警情系统时就需要从接处警文本中抽取要素。然而,接处警文本中通常会包含大量的口语化要素,包括时间、地点、作案手段等,其中,针对一时间“2020年1月1日8时”就可能会出现“2020年1月1日上午8点”、“2020年1 月1号8点左右”、“2020年元旦那天”等多种表达方式,作案手段可能会出现如“强买强卖”、“必须搭售保险”、“不交押金就不让走”等不同的说法。由于口语化要素缺少较为明显的表述规则,是以很难通过简单的关键字匹配方式来检索。
近年来,学者们先后提出了许多基于神经网络的命名实体识别方法,主要思路是使用卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(RecurrentNeural Network,RNN)等结构提取序列隐含特征,之后利用条件随机场(ConditionalRandom Field,CRF)求解最优序列。
虽然相比基于统计学的方法,如隐马尔可夫模型(Hidden Markov Model, MM)、最大熵模型(Maximum Entropy Model,MEM)等来说,基于神经网络的命名实体识别算法,可以通过大量文本学习相关的语言特征,自动化地构建实体信息抽取框架,从而提取出特定的要素,但是仍然存在特征抽取能力不足、识别率不够的问题。
发明内容
本发明的目的是提供一种口语化要素识别方法及装置、警情分析系统,有效解决现有技术对口语化要素识别率不高的技术问题。
本发明提供的技术方案如下:
一种口语化要素识别方法,包括:
获取待识别文本,并将文本中的字符进行映射得到字符向量;
使用预训练的循环神经网络对所述待识别文本进行特征抽取获取字符向量的上下文编码信息,生成语义编码向量;
对所述字符向量和语义编码向量进行融合编码;
使用条件随机场对融合后的向量进行类别判断并输出,实现对待识别文本中的要素进行识别。
进一步优选地,在所述将文本中的字符进行映射得到字符向量中:采用跳词模型对满足预设规则的字符进行字向量编码;所述预设规则包括:字符于待识别文本中出现的频率大于预设频率。
进一步优选地,在所述使用预训练的循环神经网络对所述待识别文本进行特征抽取获取字符向量的上下文编码信息,生成语义编码向量中:使用预训练的BiLSTM模型对所述待识别文本进行特征抽取获取字符向量的上下文编码信息,生成语义编码向量。
进一步优选地,在所述将文本中的字符进行映射得到字符向量中,包括:针对所述待识别文本中各汉字的潜在语义,得到每个汉字对应的多个字符向量;
在对所述字符向量和语义编码向量进行融合编码中,包括:从每个汉字对应的多个字符向量中选定一字符向量实现字符向量和语义编码向量的融合编码。
进一步优选地,在对所述字符向量和语义编码向量进行融合编码中,将待识别文本上下文中词语的表征为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于迪爱斯信息技术股份有限公司,未经迪爱斯信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010937545.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纺织纱线的上蜡装置
- 下一篇:一种毛笔弹性测试方法