[发明专利]案情数据的归并方法及装置在审
| 申请号: | 201810827109.0 | 申请日: | 2018-07-25 |
| 公开(公告)号: | CN109033351A | 公开(公告)日: | 2018-12-18 |
| 发明(设计)人: | 钟翔宇;李士勇;张瑞飞;李广刚 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
| 地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 归并 命中 数据分类 集合 案件 公安领域 模型确定 准确率 算法 维度 预设 分类 申请 | ||
1.一种案情数据的归并方法,其特征在于,所述方法包括:
通过两种不同算法分别从已知案件类别的案情数据中,获取到第一动词集和第二动词集;
根据所述第一动词集和第二动词集,生成与案件类别对应的特征动词集合;
利用所述特征动词集合训练获得案情数据分类模型;
根据所述案情数据分类模型,获取待归并案情数据的命中类别;
根据所述命中类别预设的至少一个串并维度,将所述待归并案情数据和所述命中类别中的已知案情数据进行串并,并根据串并结果进行数据归并。
2.根据权利要求1所述的方法,其特征在于,所述从已知案件类别的案情数据中获取第一动词集和第二动词集的步骤,包括:
对案情数据进行切词,并对切词得到的分词添加词性标签;
根据词性标签,从所有所述分词中提取动词,以及,对提取到的动词进行去停用词处理,生成候选词集;
从候选动词集中获取第一动词集和第二动词集。
3.根据权利要求2所述的方法,其特征在于,所述从候选词集中获取第一动词集的步骤,包括:
统计候选词集中每个动词的正向词频和反向词频;
根据所述正向词频和反向词频,获取候选词集中每个动词相对于自身所属案件类别的第一分类权重;
将所述第一分类权重满足第一预设条件的动词添加至第一动词集中;
其中,根据所述动词在其自身所属的案情数据中的词频获得正向词频,根据案情数据总量和包含所述动词的案情数据量获得反向词频。
4.根据权利要求2所述的方法,其特征在于,所述从候选词集中获取第二动词集的步骤,包括:
获取候选词集中每个动词相对于自身所属案件类别的第二分类权重;
以及,将所述第二分类权重满足第二预设条件的动词添加至第二动词集中;
其中,通过以下公式获取所述第二分类权重:
其中,A表示与目标动词类别相同,且包含目标动词的案情数据量;
B表示与目标动词类别不同,且包含目标动词的案情数据量;
C表示与目标动词类别相同,且不包含目标动词的案情数据量;
D表示与目标动词类别不同,且不包含目标动词的案情数据量。
5.根据权利要求3或4所述的方法,其特征在于,所述根据第一动词集和第二动词集,生成与案件类别对应的特征动词集合的步骤,包括:
根据预设规则,确定第一动词集的候选特征动词和第二动词集的候选特征动词;
选取第一动词集和第二动词集中相同的候选特征动词,形成与案件类别对应的特征动词集合。
6.根据权利要求1所述的方法,其特征在于,所述利用特征动词集合训练获得案情数据分类模型的步骤,包括:
将特征动词集合中的特征动词转换为特征向量;
根据预设缩放规则,对所述特征向量进行缩放处理,得到训练输入文件;
利用所述训练输入文件训练获得案情数据分类模型。
7.根据权利要求1所述的方法,其特征在于,所述根据案情数据分类模型,获取待归并案情数据的命中类别的步骤,包括:
对待归并案情数据进行切词,并对切词得到的分词添加词性标签;
根据词性标签,从所有所述分词中提取动词,以及,对提取到的动词进行去停用词处理,生成输入词集;
将输入词集中的每个动词转换为输入词向量;
根据所述预设缩放规则,对所述输入词向量进行缩放处理,得到输入序列;
根据输入序列,从所述案情数据分类模型获取与输出序列对应的待归并案情数据的命中类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810827109.0/1.html,转载请声明来源钻瓜专利网。





