[发明专利]基于特征缩放的数据预处理方法在审

专利信息
申请号: 202110335528.4 申请日: 2021-03-29
公开(公告)号: CN113065088A 公开(公告)日: 2021-07-02
发明(设计)人: 刘思源 申请(专利权)人: 重庆富民银行股份有限公司
主分类号: G06F17/10 分类号: G06F17/10
代理公司: 重庆强大凯创专利代理事务所(普通合伙) 50217 代理人: 赵玉乾
地址: 401121 重庆市渝*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 特征 缩放 数据 预处理 方法
【说明书】:

发明涉及数据处理技术领域,具体为基于特征缩放的数据预处理方法,该方法包括以下内容:数据映射步骤,将待匹配数据的各个维度数据映射为数值数据;特征缩放步骤,将各个维度映射后的数据进行归一化、标准化以及缩放处理;相似度计算步骤,计算待匹配数据与目标数据的相似度。所述归一化采用min‑max归一化算法或mean归一化算法。本申请的基于特征缩放的数据预处理方法,能够从整体上对各个维度进行匹配,解决现有技术匹配不全面的问题。

技术领域

本发明涉及数据处理技术领域,具体为基于特征缩放的数据预处理方法。

背景技术

在业务系统中,通常会有搜索匹配的业务需求,传统的搜索匹配处理过程,主要包括精准匹配和模糊匹配两类,精准匹配时,对目标数据或搜索条件进行关键词拆分,然后判断拆分的关键词与待匹配数据对应的字段是否完全一致,并返回搜索结果;模糊匹配则是进行模糊化搜索,并不要求目标数据与搜索条件完全一致,其通常是对检索条件进行解析后,根据属性的相似度形成搜索结果。为了简化用户输入,业务系统通常使用模糊匹配,以尽可能增加检全率,确保用户可以得到自己想要的结果。

但是目前的模糊匹配主要是判断待匹配数据中是否包含搜索条件,进而形成匹配结果,这种匹配方式仅仅是各个数据维度单独进行匹配,数据考虑不全面,而不从数据整体的角度进行匹配,无法匹配出数据不同,但含义相似的情况,同时针对一些参数,需要用户指定范围,如日期、数值等,增加用户操作。

发明内容

本发明意在提供基于特征缩放的数据预处理方法,能够从整体上对各个维度进行匹配,解决现有技术匹配不全面的问题。

本申请提供如下技术方案:

基于特征缩放的数据预处理方法,包括以下步骤:

数据映射步骤,将待匹配数据的各个维度数据映射为数值数据;

特征缩放步骤,将各个维度映射后的数据进行特征缩放,所述特征缩放包括归一化处理、标准化处理中的一种或多种;

相似度计算步骤,计算待匹配数据与目标数据的相似度。

进一步,所述归一化处理采用min-max归一化算法或mean归一化算法。

进一步,特征缩放步骤采用以下公式进行标准化处理:

进一步,通过以下公式进行标准化处理:

其中,x为处理前的数据,x′为处理后的数据,||x||为取模。

进一步,所述相似度计算步骤包括:

将待匹配数据以及目标数据整理为数据向量;

计算待匹配数据与目标数据对应的向量的距离;

将距离映射为相似度。

进一步,将数据以及目标数据整理为数据向量步骤中,将待匹配数据整理为向量:

X=[X1,X2,X3…Xn]

将目标数据整理为向量:

Y=[Y1,Y2,Y3…Yn]

计算数据与目标数据对应的向量的距离采用加权欧式距离算法进行计算:

其中,D(X,Y)表示向量X与向量Y之间的距离,Zi为第i个维度对应的权重。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆富民银行股份有限公司,未经重庆富民银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110335528.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top