[发明专利]一种基于改进SNM算法在审判辅助事物的数据清洗方法在审

专利信息
申请号: 202210568173.8 申请日: 2022-05-24
公开(公告)号: CN115034215A 公开(公告)日: 2022-09-09
发明(设计)人: 张洁;周扬;周维杰 申请(专利权)人: 南京铉盈网络科技有限公司;南京智盈人工智能研究院有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F40/216;G06F40/30;G06F16/33
代理公司: 南京中盟科创知识产权代理事务所(特殊普通合伙) 32279 代理人: 孙丽君
地址: 210000 江苏省南京市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 改进 snm 算法 审判 辅助 事物 数据 清洗 方法
【说明书】:

发明公开了一种基于改进SNM算法在审判辅助事物的数据清洗方法,该数据清洗方法包括以下步骤:S1、根据窗口的影响因素确定窗口的初始值;S2、利用非参数归回方式估算窗口的概率密度,并判定窗口的阈值;S3、对窗口内数据集进行匹配,根据匹配结果判定是否对窗口大小进行调节;S4、根据步长计算公式,确定窗口的调整步长;S5、对窗口进行分词、近似字提取及进行连词,依次赋予权重值为M1、M2及M3,并确认数据是否为相似数据。本发明图形准确率和效率都有明显提升,数据量越大,效果越明显,改进后的算法可以节省40%以上的时间,准确率提高60%。

技术领域

本发明涉及审判辅助事物的数据清洗技术领域,具体来说,涉及一种基于改进SNM算法在审判辅助事物的数据清洗方法。

背景技术

随着信息时代的快速发展,各个行业所搭载的信息化数据越来越多。目前的信息系统大多处于独立状态,且在数据录入的时候会存在错误及语义表达不一致的情况,导致数据量越大耗费的时间的越多,造成的工作效率降低,此外,传统SNM算法的基本思路是先按关键字对数据集进行排序,在对设定某个固定大小的窗口,对窗口内的数据进行重复性检查,检查完之后,窗口向下移动,窗口内的第一条数据移出,窗口下第一条数据移入,根据分析,可以看出该算法存在如下缺点:

1、窗口过小影响数据正确率,窗口过大影响比对效率,导致缺陷对窗口大小的无法判定;

2、关键词非常影响重复性数据处理的结果,如果实际相似的数据按关键词排序相距较远,大于窗口大小,则会导致该重复记录无法去除。

针对相关技术中的问题,目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题,本发明提出一种基于改进SNM算法在审判辅助事物的数据清洗方法,以克服现有相关技术所存在的上述技术问题。

为此,本发明采用的具体技术方案如下:

一种基于改进SNM算法在审判辅助事物的数据清洗方法,包括该数据清洗方法包括以下步骤:

S1、根据窗口的影响因素确定窗口的初始值;

S2、利用非参数归回方式估算窗口的概率密度,并判定窗口的阈值;

S3、对窗口内数据集进行匹配,根据匹配结果判定是否对窗口大小进行调节;

S4、根据步长计算公式,确定窗口的调整步长;

S5、对窗口进行分词、近似字提取及进行连词,依次赋予权重值为M1、M2及M3,并确认数据是否为相似数据。

进一步的,所述根据窗口的影响因素确定窗口的初始值还包括以下步骤:

S11、确定窗口影响因素;

S12、设窗口的数据集大小为,窗口的数据相似度对比次数为Wi-1;

S13、根据比对结果将窗口调整到合理范围,并确定窗口的初始值。

进一步的,所述影响因素包括数据集大小与数据质量。

进一步的,所述利用非参数归回方式估算窗口的概率密度,并判定窗口的阈值还包括以下步骤:

S21、利用非参数归回方式估算窗口的概率密度;

S22、计算概率密度,并确定拒绝域;

S23、根据拒绝域的分布情况计算阈值。

进一步的,所述对窗口内数据集进行匹配,根据匹配结果判定是否对窗口大小进行调节还包括以下步骤:

S31、设窗口内数据集为,对进行比对,并依次计算的大小;

S32、当比对至,若,则根据比对结果将窗口进行调整;

S33、若,则根据比对结果将窗口进行调整;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京铉盈网络科技有限公司;南京智盈人工智能研究院有限公司,未经南京铉盈网络科技有限公司;南京智盈人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210568173.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top