[发明专利]一种基于多标签传播的数据库重叠模式摘要生成方法有效
申请号: | 201510464314.1 | 申请日: | 2015-07-31 |
公开(公告)号: | CN105138588B | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 袁晓洁;于漫;王超;靳宇东;温延龙 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 传播 数据库 重叠 模式 摘要 生成 方法 | ||
一种基于多标签传播的数据库重叠模式摘要生成方法。包括:将数据库模式信息映射为多标签图模型;采用多标签传播算法对数据库模式信息进行聚类,生成可重叠团;采用层次聚类算法对可重叠团进行聚类,进一步生成规模适当的结果类;最后基于信息熵及随机游走模型为每个结果类选取主题表,以生成最终的数据库重叠模式摘要。本发明提出的重叠模式摘要生成方案能够为用户提供更加准确、具有意义的数据库重叠模式摘要,帮助用户快速地理解数据库信息。
技术领域
本发明属于数据库技术领域,具体涉及一种新型的关系数据库重叠模式摘要生成技术。
背景技术
随着计算机的普及和信息技术的飞速发展,大量的数据信息使得数据库技术得到了广泛的使用,数据库应用开始走向普通用户。然而现代数据库的规模往往十分庞大而复杂,用户要想在查询过程中生成适当的结构化查询语言,就必须要对数据库的模式信息具有一定的了解。然而大规模数据库所对应的模式信息通常也十分复杂,并且普遍存在相关文档缺失现象,更给用户了解数据库模式造成了困难。
模式摘要生成技术能够有效的解决上述问题,为用户提供一个简明的数据库模式概要,提高数据库的可用性。现存的模式摘要解决方案都只专注于非重叠模式摘要的生成,也就是只允许一个数据库关系表属于模式摘要中的一个主题类,然而在现实中,数据库关系表往往可以拥有多重意义并隶属于多个主题类。只考虑非重叠情况会导致摘要结果不完整甚至使用户产生误解。
相对于非重叠模式摘要往往不能够全面满足用户需求的问题。重叠模式摘要生成技术能够生成更加合理的数据库模式摘要信息,有效减少用户理解数据库模式所消耗的时间和精力,具有广泛的工程应用前景。
发明内容
本发明的目的在于克服现有技术存在的上述不足,提出一种基于多标签传播的数据库重叠模式摘要自动生成方法。
本发明提供的基于多标签传播的数据库重叠模式摘要生成方法,创新地提出了重叠模式摘要概念;设计一种新的数据库多标签模式图模型;采用了多标签传播算法和层次聚类算法分别对数据库模式进行聚类;最终为聚类所得的每个结果类选取一个主题表,为用户返回一个可重叠的模式摘要。该方法的步骤如下:
第1、将数据库模式映射为一个带权重的多标签图;
第1.1、将数据库模式映射为一个多标签图,
定义1:一个关系数据库模式可以映射为一个多标签图,用一个三元组G=(V,E,LM)表示,其中:
①.V表示数据库中关系表节点的集合,v∈V表示数据库中的关系表节点;
②.E表示数据库中外键关系的集合,e∈E表示数据库中的外键关系;
③.LM为一个标签映射函数,将节点映射到对应的一个或者多个标签,其中标签用(c,b)表示,c表示一个结果类标示符,b为标签隶属度,表示一个数据库关系表v与其结果类标示符c的隶属强度;
第1.2、计算多标签图中连接边的两个关系表间的相似性,作为标签图权重;
第1.2.1、使用空间向量模型计算关系表的表名和属性名的文本相似度,作为关系表的名称相似度;
第1.2.2、使用Jaccard系数对关系表属性列的值进行数值相似度分析,并通过贪心算法找到最佳匹配属性对,取最佳匹配属性对值相似度的平均值求得关系表值相似度;
第1.2.3、通过分析关系表之间的计数比率,计算出关系表的映射关系相似度,
定义2:关系表R与关系表S之间的映射关系相似度,记作Simm(R,S),定义如下:
其中:
①.τ表示关系表的所有元组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510464314.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烟丝输送系统
- 下一篇:语音文本串的解析方法和装置