[发明专利]基于深度学习模型的组织识别方法与装置、设备及介质在审
| 申请号: | 202010348493.3 | 申请日: | 2020-04-28 |
| 公开(公告)号: | CN113094499A | 公开(公告)日: | 2021-07-09 |
| 发明(设计)人: | 彭涛;赵伟;高丽青 | 申请(专利权)人: | 北京明亿科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F40/289;G06N3/04;G06N3/08;G06Q50/18 |
| 代理公司: | 北京植德律师事务所 11780 | 代理人: | 唐华东 |
| 地址: | 100021 北京市朝阳区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 模型 组织 识别 方法 装置 设备 介质 | ||
1.一种基于深度学习模型的组织识别方法,包括:
对待识别接处警文本进行切词得到相应的分词序列;
对于所得到的分词序列中的每个分词,将该分词对应的词向量输入组织描述词分类模型以确定该分词是否为组织描述词,其中,所述组织描述词分类模型是基于深度学习模型预先训练得到的,组织描述词为用于描述组织的组织描述文本中的词语;
用所得到的分词序列中由连续相邻的组织描述词组成的分词序列片段生成组织描述文本;
用所生成的各组织描述文本生成所述待识别接处警文本对应的组织描述文本集合。
2.根据权利要求1所述的方法,其中,所述组织描述词分类模型是通过如下训练步骤预先训练得到的:
获取训练样本集合,其中,训练样本包括对历史接处警文本进行切词所得到的分词序列以及对应的标注信息序列,标注信息序列中的标注信息用于指示相应分词序列中相应分词是否属于相应历史接处警文本所包括的组织描述文本;
根据所述训练样本集合的各训练样本中的标注信息序列,确定所述训练样本集合的各训练样本的分词序列中的组织描述词和非组织描述词;
生成正样本集合和负样本集合,其中,正样本包括所确定的组织描述词对应的词向量和用于指示是组织描述词的标注分类结果,负样本包括所确定的非组织描述词对应的词向量和用于指示非组织描述词的标注分类结果;
以所述正样本集合和所述负样本集合中的词向量作为实际输入,以相应的标注分类结果作为期望输出,训练初始深度学习模型,得到所述组织描述词分类模型。
3.根据权利要求2所述的方法,其中,组织描述词对应的词向量和非组织描述词对应的词向量中的各分量分别与预设词典中的各词语一一对应,组织描述词对应的词向量中与该组织描述词对应的分量为该组织描述词的词频-逆文本频率指数TF-IDF,不同于该组织描述词对应的分量的分量为第一预设数值,非组织描述词对应的词向量中与该非组织描述词对应的分量为该非组织描述词的词频-逆文本频率指数TF-IDF,不同于该非组织描述词对应的分量的分量为所述第一预设数值。
4.根据权利要求3所述的方法,其中,所述正样本集合中正样本的数目除以所述负样本集合中负样本的数目所得的比值在预设比例范围内。
5.一种基于深度学习模型的组织识别装置,包括:
切词单元,被配置成对待识别接处警文本进行切词得到相应的分词序列;
分类单元,被配置成对于所得到的分词序列中的每个分词,将该分词对应的词向量输入组织描述词分类模型以确定该分词是否为组织描述词,其中,所述组织描述词分类模型是基于深度学习模型预先训练得到的,组织描述词为用于描述组织的组织描述文本中的词语;
第一生成单元,被配置成用所得到的分词序列中由连续相邻的组织描述词组成的分词序列片段生成组织描述文本;
第二生成单元,被配置成用所生成的各组织描述文本生成所述待识别接处警文本对应的组织描述文本集合。
6.根据权利要求5所述的装置,其中,所述组织描述词分类模型是通过如下训练步骤预先训练得到的:
获取训练样本集合,其中,训练样本包括对历史接处警文本进行切词所得到的分词序列以及对应的标注信息序列,标注信息序列中的标注信息用于指示相应分词序列中相应分词是否为相应历史接处警文本所包括的组织描述文本中的组织描述词;
根据所述训练样本集合的各训练样本中的标注信息序列,确定所述训练样本集合的各训练样本的分词序列中的组织描述词和非组织描述词;
生成正样本集合和负样本集合,其中,正样本包括所确定的组织描述词对应的词向量和用于指示是组织描述词的标注分类结果,负样本包括所确定的非组织描述词对应的词向量和用于指示非组织描述词的标注分类结果;
以所述正样本集合和所述负样本集合中的词向量作为实际输入,以相应的标注分类结果作为期望输出,训练初始深度学习模型,得到所述组织描述词分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明亿科技有限公司,未经北京明亿科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010348493.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:拔销器
- 下一篇:层叠半导体器件和包括其的半导体系统





