[发明专利]一种表的分类方法、装置、计算机设备及存储介质在审
申请号: | 201910664513.5 | 申请日: | 2019-07-23 |
公开(公告)号: | CN110399432A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 袁晓晓;徐金梦;姜琳;吴林强;许琮浩 | 申请(专利权)人: | 杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 黄勇 |
地址: | 310000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 归类 语料 分类 计算机设备 存储介质 基准表 预设 匹配 预处理 计算机技术领域 工作效率 归类模型 数据通过 数据量 字段 自动化 输出 | ||
1.一种表的分类方法,其特征在于,所述方法包括以下步骤:
获取第一语料数据并进行预处理使,所述第一语料数据与待归类的第一表对应,包括与所述第一表对应的第一表名以及第一字段名;
将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配;
将所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。
2.根据权利要求1所述的一种表的分类方法,其特征在于,所述将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配之前,还包括以下步骤:
提取所述第一语料数据的特征向量作为第一特征向量;
根据所述第一特征向量,使用预训练的聚类模型确定所述第一语料数据所属的分类,所述分类中包含若干预设的所述基准表。
3.根据权利要求2所述的一种表的分类方法,其特征在于,所述聚类模型的训练过程包括以下步骤:
获取与所述基准表对应的第二语料数据并进行预处理;
利用TF-IDF算法提取所述第二语料数据的特征向量并记为第二特征向量;
利用所述第二特征向量对所述聚类模型进行训练得到训练后的聚类模型。
4.根据权利要求1所述的一种表的分类方法,其特征在于,所述将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配,具体包括以下步骤:
根据通用词向量确定所述第一语料数据的特征向量并记为第三特征向量;
利用预训练的matchpyramid模型对所述第三特征向量进行处理,确定所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名。
5.根据权利要求4所述的一种表的分类方法,其特征在于,所述根据通用词向量确定所述第一语料数据的特征向量并记为第三特征向量之后,还包括以下步骤:
计算所述第三特征向量与所述第二语料数据对应的特征向量之间的余弦相似度,其中,所述第二语料数据与预设的所述基准表对应;
当所述相似度满足预设条件时,将所述第二语料数据对应的所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出;
取两种算法输出结果的交集或者并集作为所述待归类表的字段名的类别并输出。
6.根据权利要求4所述的一种表的分类方法,其特征在于,所述matchpyramid模型的训练过程包括以下步骤:
获取与所述基准表对应的第二语料数据并进行预处理;
利用通用词向量计算所述第二语料数据的特征向量并记为第四特征向量;
利用所述第四特征向量对所述matchpyramid模型进行训练得到训练后的模型。
7.根据权利要求1、3、6所述的一种表的分类方法,其特征在于,所述预处理包括分词处理以及去停用词处理。
8.一种表的分类方法装置,其特征在于,所述装置包括:
数据获取以及预处理模块,用于获取第一语料数据并进行预处理使,所述第一语料数据与待归类的第一表对应,包括与所述第一表对应的第一表名以及第一字段名;
匹配模块,用于将所述第一语料数据通过预设的归类模型进行处理,以将所述第一表名、第一字段名与预设的基准表中的表名、字段名进行匹配;
输出模块,用于将所述基准表中与所述第一表名、第一字段名相匹配的第二表名、第二字段名作为结果输出。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述的一种表的分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1至7中任一项权利要求所述的一种表的分类方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司,未经杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910664513.5/1.html,转载请声明来源钻瓜专利网。