[发明专利]口语化要素识别方法及装置、警情分析系统在审
申请号: | 202010937545.0 | 申请日: | 2020-09-08 |
公开(公告)号: | CN112016313A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 杜渂;邱祥平;雷霆;王聚全;彭明喜;周赵云;索涛;刘冉东;杨博;刘亮亮;宋平超;林永生;何共晖 | 申请(专利权)人: | 迪爱斯信息技术股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/126;G06N3/04;G06N3/08 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 郭桂峰 |
地址: | 200233 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 口语化 要素 识别 方法 装置 情分 系统 | ||
1.一种口语化要素识别方法,其特征在于,包括:
获取待识别文本,并将文本中的字符进行映射得到字符向量;
使用预训练的循环神经网络对所述待识别文本进行特征抽取获取字符向量的上下文编码信息,生成语义编码向量;
对所述字符向量和语义编码向量进行融合编码;
使用条件随机场对融合后的向量进行类别判断并输出,实现对待识别文本中的要素进行识别。
2.如权利要求1所述的口语化要素识别方法,其特征在于,
在所述将文本中的字符进行映射得到字符向量中:采用跳词模型对满足预设规则的字符进行字向量编码;所述预设规则包括:字符于待识别文本中出现的频率大于预设频率;和/或,
在所述使用预训练的循环神经网络对所述待识别文本进行特征抽取获取字符向量的上下文编码信息,生成语义编码向量中:使用预训练的BiLSTM模型对所述待识别文本进行特征抽取获取字符向量的上下文编码信息,生成语义编码向量。
3.如权利要求1或2所述的口语化要素识别方法,其特征在于,在所述将文本中的字符进行映射得到字符向量中,包括:针对所述待识别文本中各汉字的潜在语义,得到每个汉字对应的多个字符向量;
在对所述字符向量和语义编码向量进行融合编码中,包括:从每个汉字对应的多个字符向量中选定一字符向量实现字符向量和语义编码向量的融合编码。
4.如权利要求3所述的口语化要素识别方法,其特征在于,在对所述字符向量和语义编码向量进行融合编码中,将待识别文本上下文中词语的表征为:
其中,yj={c1,c2,...,cN}表示第j个目标词向量,wj表示第j个词向量,Nj为第j个词语wj中汉字的数量,ck表示第k个汉字被选定的字符向量;
在获取目标词yj的过程中,第k个汉字对应的字符向量被选择次数的最大值为:
其中,rk表示为第k个汉字对应的字符向量被选择次数的最大值,S(·)表示余弦相似度函数;vcontext表示最后得到的词向量,表示汉字u中曾被选择次数最多的字符向量,t表示中间变量。
5.一种口语化要素识别装置,其特征在于,包括:
字向量嵌入单元,用于获取待识别文本,并将文本中的字符进行映射得到字符向量;
语义编码单元,用于使用预训练的循环神经网络对所述字向量嵌入单元获取的待识别文本进行特征抽取获取字符向量的上下文编码信息,生成语义编码向量;
融合编码单元,用于对所述字向量嵌入单元生成的字符向量和语义编码单元生成的语义编码向量进行融合编码;
类别标注单元,用于使用条件随机场对所述融合编码单元融合后的向量进行类别判断并输出,实现对待识别文本中的要素进行识别。
6.如权利要求5所述的口语化要素识别装置,其特征在于,在所述字向量嵌入单元中,采用跳词模型对满足预设规则的字符进行字向量编码;所述预设规则包括:字符于待识别文本中出现的频率大于预设频率;和/或,
在所述语义编码单元中,使用预训练的BiLSTM模型对所述待识别文本进行特征抽取获取字符向量的上下文编码信息,生成语义编码向量;和/或
在所述字向量嵌入单元中,针对所述待识别文本中各汉字的潜在语义,得到每个汉字对应的多个字符向量;
在所述融合编码单元中,从每个汉字对应的多个字符向量中选定一字符向量实现字符向量和语义编码向量的融合编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于迪爱斯信息技术股份有限公司,未经迪爱斯信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010937545.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纺织纱线的上蜡装置
- 下一篇:一种毛笔弹性测试方法