[发明专利]一种基于联合学习的文本情报分类方法、装置及计算机设备在审
| 申请号: | 201810552043.9 | 申请日: | 2018-05-31 |
| 公开(公告)号: | CN108763542A | 公开(公告)日: | 2018-11-06 |
| 发明(设计)人: | 张镇;伊文超;史云飞;梁波;赵国强 | 申请(专利权)人: | 中国华戎科技集团有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 吴东勤 |
| 地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 情报 文本 循环神经网络 分类 计算机设备 分类网络 混合神经网络 卷积神经网络 实体间关系 记忆网络 时间成本 自动识别 数据量 协同 联合 梳理 输出 学习 | ||
本发明涉及一种基于联合学习的文本情报分类方法、装置及计算机设备,该方法包括:S1:将第一文本情报输入双向长短期记忆循环神经网络Bi‑LSTM进行处理;S2:将经过所述双向长短期记忆循环神经网络Bi‑LSTM处理后的输出,分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入,共同进行混合神经网络训练,得到文本情报的分类网络;S3:将第二文本情报输入双向长短期记忆循环神经网络Bi‑LSTM进行处理,将处理的结果输入到所述分类网络,得到所述第二文本情报的情报实体间关系的分类。解决了现有的文本情报由于种类多、数据量大,存在分类/梳理困难的问题。能够自动识别文本情报中的“人员”“地点”“时间”等情报实体,显著降低办案人员时间成本。
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种基于联合学习的文本情报分类方法、装置及计算机设备。
背景技术
文本情报作为一种犯罪行为研判的依据,在案件侦破中发挥着重要作用,尤其在大数据背景下,网站社交数据、通讯内容、聊天记录等文本情报的获取,极大丰富了研判信息,为案件侦破提供了稳固的信息支撑。然而,伴随着文本情报的急剧增加,情报难梳理、难利用的问题日益凸显,“数据量大、价值密度低、利用低下”成为文本情报分析的难点。
文本情报提取成为解决以上问题的重要途径。文本情报提取主要由两部分组成,一、命名实体识别(Named Entity Recognition,NER),即从文本情报中对命名实体进行识别,在公共安全领域,命名实体主要包含“人员”、“地点”、“时间”等(以下统称情报实体);二、关系分类(Relation Classification,RC),即依据NER过程提取的命名实体,对实体间的关系按设定类型进行分类。在公共安全领域,主要针对人员与人员的关联关系,人员与地点的所属关系,时间与人员的对应关系进行实体关系分类(以下统称情报实体关系分类)。
传统的情报提取方式将NER过程和RC过程作为两个独立单元进行处理并且过于依赖人工特征(依据领域理解和自然语言处理工具对文本进行特征提取的过程),存在以下问题:
NER与RC过程割裂,忽略了实体与关系的内在联系,致使关系分类效果不佳;人工特征过程繁琐耗时,对于多元海量文本情报的提取尤其显著。
发明内容
本发明针对现有的文本情报由于种类多、数据量大,存在分类/梳理困难的问题,提供了一种基于联合学习的文本情报分类方法、装置及计算机设备,能够自动识别文本情报中的“人员”“地点”“时间”等情报实体,从中提取人与人、人与地点、人与事件的关系,在充分利用大数据背景下多样化文本情报的同时,显著降低办案人员时间成本。
第一方面,本发明提供了一种基于联合学习的文本情报分类方法,包括:
S1:将第一文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理;所述第一文本情报为训练分类网络所用的文本情报;
S2:将经过所述双向长短期记忆循环神经网络Bi-LSTM处理后的输出,分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入,共同进行混合神经网络训练,得到文本情报的分类网络;
S3:将第二文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理,将处理的结果输入到所述分类网络,得到所述第二文本情报的情报实体间关系的分类;所述第二文本情报为待分类的文本情报。
本发明的有益效果是:在充分利用大数据背景下多样化文本情报的同时,显著降低办案人员的时间成本。
进一步,在所述S1和S3中,所述处理过程包括:通过双向长短期记忆循环神经网络Bi-LSTM对输入的第一/第二文本情报进行编码,得到情报融合向量。
进一步,在所述S2中,所述作为LSTM的输入和协同卷积神经网络CNN的输入,共同进行混合神经网络训练的过程包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国华戎科技集团有限公司,未经中国华戎科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810552043.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种页面显示方法及终端
- 下一篇:数据库审计监测系统





