[发明专利]一种数据列映射方法及系统有效

专利信息
申请号: 201710057151.4 申请日: 2017-01-23
公开(公告)号: CN106886578B 公开(公告)日: 2020-10-16
发明(设计)人: 陈磊 申请(专利权)人: 武汉翼海云峰科技有限公司
主分类号: G06F16/22 分类号: G06F16/22
代理公司: 武汉智嘉联合知识产权代理事务所(普通合伙) 42231 代理人: 黄君军
地址: 430000 湖北省武汉市东湖开发区关山*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 映射 方法 系统
【权利要求书】:

1.一种数据列映射方法,其特征在于,包括如下步骤:

S1、获取源数据库与目标数据库表和列的特征信息;

S2、将获取的特征信息文本化;

S3、将文本化的特征信息转化为矢量;

S4、抽取部分源数据库列与目标数据库列的组合形成样本集合;

S5、对样本集合中的源数据库列与目标数据库列的特征信息矢量进行相似度计算并进行匹配判断;

S6、基于上述相似度计算结果及匹配判断结果,生成贝叶斯分类器;

S7、将上述贝叶斯分类器应用于所有的源数据库列与目标数据库列组合;其中,

步骤S3中包括如下步骤:

S31、将文本化的特征信息转换为由一系列词组成的词集合;

S32、使用Ngram算法将上述词集合转化为一个由ngram元祖组成的文本矢量,其具体运作方式如下,

A,首先在字符串中每个词的前面添加2个空格,然后在每个词的后面添加一个空格;

B,从第一个字符开始,取连续三个字符作为矢量分量放入矢量;

C,以此循环直到字符串结尾;

S33、使用TF-IDF算法计算上述文本矢量中每个元素的权重,并得到一个权重矢量,其计算方法如下:

A,一个文本矢量分量在一个句子中的出现频率可以记为:(ft,d),t代表某个分量,而d代表某个文本矢量;使用对数归一化的tf可以计算为:

tf(t,d)=1+log(ft,d),

B,用idf参数来表示一个文本矢量分量的非常用特性:

其中N是指用于计算的文本矢量的总数,而|{d∈D,t∈d}|表示有多少文本矢量包含有该分量t;

C,最终的矢量权重如下计算:

weight=tf(t,d)×idf(t,D)。

2.根据权利要求1所述的数据列映射方法,其特征在于,步骤S1中:

获取的特征信息包括以下所有信息项:数据库表名、数据库表描述信息、数据库列名、数据库列描述信息、数据库列类型、数据库列的数据抽样。

3.根据权利要求2所述的数据列映射方法,其特征在于,步骤S4中:

所述样本集合中包含的每个成员都是由一个源数据库列和一个目标数据库列形成的组合,其每个成员都包含所述步骤S33中计算的权重矢量。

4.根据权利要求3所述的数据列映射方法,其特征在于,步骤S5中:

使用余弦相似度算法计算源数据库列与目标数据库列对应特征信息权重矢量之间的相似度,并对源数据库列和目标数据库列进行匹配判断。

5.根据权利要求4所述的数据列映射方法,其特征在于,步骤S6中:

所述贝叶斯分类器是假定源数据库列与目标数据库列的不同特征信息之间的分布是独立的,并假定相关分布遵从高斯分布。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉翼海云峰科技有限公司,未经武汉翼海云峰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710057151.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top