[发明专利]一种基于改进SNM算法在审判辅助事物的数据清洗方法在审
| 申请号: | 202210568173.8 | 申请日: | 2022-05-24 |
| 公开(公告)号: | CN115034215A | 公开(公告)日: | 2022-09-09 |
| 发明(设计)人: | 张洁;周扬;周维杰 | 申请(专利权)人: | 南京铉盈网络科技有限公司;南京智盈人工智能研究院有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30;G06F16/33 |
| 代理公司: | 南京中盟科创知识产权代理事务所(特殊普通合伙) 32279 | 代理人: | 孙丽君 |
| 地址: | 210000 江苏省南京市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 改进 snm 算法 审判 辅助 事物 数据 清洗 方法 | ||
本发明公开了一种基于改进SNM算法在审判辅助事物的数据清洗方法,该数据清洗方法包括以下步骤:S1、根据窗口的影响因素确定窗口的初始值;S2、利用非参数归回方式估算窗口的概率密度,并判定窗口的阈值;S3、对窗口内数据集进行匹配,根据匹配结果判定是否对窗口大小进行调节;S4、根据步长计算公式,确定窗口的调整步长;S5、对窗口进行分词、近似字提取及进行连词,依次赋予权重值为M1、M2及M3,并确认数据是否为相似数据。本发明图形准确率和效率都有明显提升,数据量越大,效果越明显,改进后的算法可以节省40%以上的时间,准确率提高60%。
技术领域
本发明涉及审判辅助事物的数据清洗技术领域,具体来说,涉及一种基于改进SNM算法在审判辅助事物的数据清洗方法。
背景技术
随着信息时代的快速发展,各个行业所搭载的信息化数据越来越多。目前的信息系统大多处于独立状态,且在数据录入的时候会存在错误及语义表达不一致的情况,导致数据量越大耗费的时间的越多,造成的工作效率降低,此外,传统SNM算法的基本思路是先按关键字对数据集进行排序,在对设定某个固定大小的窗口,对窗口内的数据进行重复性检查,检查完之后,窗口向下移动,窗口内的第一条数据移出,窗口下第一条数据移入,根据分析,可以看出该算法存在如下缺点:
1、窗口过小影响数据正确率,窗口过大影响比对效率,导致缺陷对窗口大小的无法判定;
2、关键词非常影响重复性数据处理的结果,如果实际相似的数据按关键词排序相距较远,大于窗口大小,则会导致该重复记录无法去除。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于改进SNM算法在审判辅助事物的数据清洗方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种基于改进SNM算法在审判辅助事物的数据清洗方法,包括该数据清洗方法包括以下步骤:
S1、根据窗口的影响因素确定窗口的初始值;
S2、利用非参数归回方式估算窗口的概率密度,并判定窗口的阈值;
S3、对窗口内数据集进行匹配,根据匹配结果判定是否对窗口大小进行调节;
S4、根据步长计算公式,确定窗口的调整步长;
S5、对窗口进行分词、近似字提取及进行连词,依次赋予权重值为M1、M2及M3,并确认数据是否为相似数据。
进一步的,所述根据窗口的影响因素确定窗口的初始值还包括以下步骤:
S11、确定窗口影响因素;
S12、设窗口的数据集大小为,窗口的数据相似度对比次数为Wi-1;
S13、根据比对结果将窗口调整到合理范围,并确定窗口的初始值。
进一步的,所述影响因素包括数据集大小与数据质量。
进一步的,所述利用非参数归回方式估算窗口的概率密度,并判定窗口的阈值还包括以下步骤:
S21、利用非参数归回方式估算窗口的概率密度;
S22、计算概率密度,并确定拒绝域;
S23、根据拒绝域的分布情况计算阈值。
进一步的,所述对窗口内数据集进行匹配,根据匹配结果判定是否对窗口大小进行调节还包括以下步骤:
S31、设窗口内数据集为,对进行比对,并依次计算的大小;
S32、当比对至,若,则根据比对结果将窗口进行调整;
S33、若,则根据比对结果将窗口进行调整;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京铉盈网络科技有限公司;南京智盈人工智能研究院有限公司,未经南京铉盈网络科技有限公司;南京智盈人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210568173.8/2.html,转载请声明来源钻瓜专利网。





