[发明专利]一种面向智能数据可视化的对话式问答实现方法有效

专利信息
申请号: 202110399195.1 申请日: 2021-04-14
公开(公告)号: CN113111158B 公开(公告)日: 2022-05-10
发明(设计)人: 李齐良;李舒琴 申请(专利权)人: 杭州电子科技大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F16/242;G06F16/338;G06F16/34
代理公司: 浙江千克知识产权代理有限公司 33246 代理人: 周希良
地址: 310018 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 智能 数据 可视化 对话 问答 实现 方法
【权利要求书】:

1.一种面向智能数据可视化的对话式问答实现方法,其特征是按如下步骤进行:

第一步:通过数据库收集、分析方法的SQL函数集构建、问题创建与SQL、可视化方案标注、SQL语句审阅、问题文本审阅、整体审阅来构建数据集;

第二步:在数据集的基础上,通过具体问题的数学化来构造问题;

第三步:建立将文本转化为分析型SQL,文本可视化方案提取的模型框架;

第四步:建立自动评估与人类评估的评估方案;

第一步具体如下:

在Spider数据集的基础上进行扩展,其中包含200个数据库,每个数据库平均含有5.1个表格;

采用描述性分析与推理统计收集常用分析方法,并构建一种机制使使用者能够根据需要扩展;确定了分析方法后,制定默认的可视化方案,最后形成分析方法的SQL函数集;

在拥有分析方法的SQL函数集后,则可开始生成文本及对应的SQL、及可视化:首先针对每个数据集生成20-30个SQL,这些SQL的生成遵循如下规则:1)覆盖50%的分析方法;2)涉及数据库的每一个表格;3)自动根据表格属性生成SQL;4)由于对于同一结果,用不同的SQL表示,规定SQL协议,生成时须符合协议;

第二步具体如下:

给定自然语言问题Q,一个关系型数据库对象集合S=C,T,以及分析方法函数集COMP,目标是生成对应的SQL查询语句P以及对应的可视化结果VIS;问题由单词序列组成Q=q1,q2,…,qQ;数据库对象集合S由列C={c1,c2,...,c|C|}以及表格名称T={t1,t2,...,t|T|}组成;分析方法函数集由多条SQL写就的函数组成COMP=comp1,comp2,...,comp|COMP|

每个列名ci包含单词每个表格名称ti包含单词SQL查询语言P由抽象语法树(AST)T来表示;可视化结果VIS由name,color,axis组成,其中name使用的可视化图名称,color表示所使用的颜色集,axis表示轴位置,由三个数字表示,第一个数字0,1表示第一个维度是否映射在横轴上,第二个数字0,1代表横轴在上或下,第三个数字0,1代表竖轴在左或右,在自然语言中不指定轴信息时为默认为000;

模式中的某些列是主键,用于对相应表进行唯一索引,有些是外键,用于引用其他表中的主键列;此外,每一列的类型为τ∈{number,text};因此,形式上将数据库对象集合表示为有向图G=V,E,它的节点V=C∪T是对象集合的列名和表名,每个列和表中都带有其名称中的单词;

有向图G是对于数据库对象集合的编码;定义一个新的以问题为上下文的数据库对象集合有向图GQ=VQ,EQ,其中,VQ=V∪Q=C∪T∪Q,为问题与数据库对象集合内容的对应后得到的边,其获取方式在对象集合链接中描述;

以上定义后,把问题分为两个子任务:(1)文本转换为分析型SQL;(2)文本转换为可视化方案VIS;对于文本转换为分析型SQL这一任务,它的基本结构为编码器-解码器架构,在选出分析方法comp后,将comp、有向图GQ使用编码器fenc编码为ci,ti,qi,comp,其中ci为某一列名的编码,ti为某一表名的编码,qi为问题中某一词汇的编码;解码器fdec以上述内容为输入,计算(P|GQ,COMP)的分布;

第三步中,文本转化为分析型SQL具体为:

自注意力机制的思想是每个元素可由其与其他元素的关系来表述,即将关系信息编码入元素中,计算方式为:

以上计算可以概括为:

yi=SelfAttn(xi,X);

Softmax:指归一化指数函数;

LayerNorm:层标准化函数;

ReLu:线性整流函数;

SelfAttn:自注意力机制函数;

Concat:连接多个函数或数组的函数;

LSMT:快速分类函数;

然而,这种自注意力机制只计算了某两种元素的单层关系,在实际情况中,元素可能与某几个元素的组合有更直接的关系;算法一如下:

首先使用GloVe embedding方法对有向图G中的列名ci及表名ti编码得到与然后运行双向LSTM得到与对于问题Q的编码,使用双向LSTM,输出其中每个词的编码其中包含识别出来的分析方法相关词汇,记为compinit

算法二如下表,只排除分析方法相关词汇进行计算:

数据库关系集合链接能够帮助自然语言问题中的表格、列、值引用与数据库关系集合对齐;对齐主要分为两个部分:名称链接与值链接;

名称链接为将列或表格名称与自然语言词汇相匹配;匹配分为全匹配与部分匹配;具体来说,首先计算自然语言问题中长度为1到5的n-grams,然后判断其是否完全匹配列名或表名或该n-gram是列名或表名的子序列,由此得到4种关系,TEM,TPM,CEM,CPM;

数据库中的值即是背景知识的良好来源,因此可将问题与数据库中的值进行匹配,将该关系定义为CELLMATCH;数据库中的值匹配需要进行数据库查询,所以使用SQL子句来构造查询语句;

为了捕获模型中的直觉,将关系感知的注意作为y中每个元素与所有列/表之间的指针机制,以计算列及表对齐矩阵

解码器基于抽象语法树以深度优先的顺序遍历得到结果;使用LSTM在每一步输出一个行为,一种行为是扩展最后生成的节点为一个语法规则APPLYRULE;另一种行为是从对象集合中选择列或表,即SELECTCOL或SELECTTAB;解码器生成SQL的过程可表示为p(P|Y)=Πtp(at|a<t,Y),其中Y=fenc(GQ)为编码器的最终输出,a<t为第t步之前所有的行为;

使用基于树的LSTM对分析方法函数f编码得到femd=LSTM(f),编码器输出修改为:

Y=fenc(GQ,COMP);

第三步中,文本可视化方案提取:对可视化方案做了以下的简化,一是只处理二维数据的可视化,二是可视化控制维度只包含可视化类型name、颜色color以及轴位置axis;将问题简化为计算p((name,color,axis)|Q,P),将结果SQL作为条件的原因是问题中可能不含有可视化的描述,所以这时使用分析方法的默认可视化方案;使用双向LSTM对问题进行编码Q,然后在最后一步输出可视化方案各维度的离散概率分布p(name),p(color),p(axis);概率分布的最大值小于某一阈值时,取默认方案;超过阈值时,取最大值对应的名称。

2.如权利要求1所述面向智能数据可视化的对话式问答实现方法,其特征是,第四步具体如下:

利用自动评估来评估生成的分析型SQL语句以及可视化方案的准确性;

对于人类评估,提供拟进行横向和纵向两种角度进行评估;横向评估:即比较不同人工智能算法下数据回答的完成度与准确度,只是此处由人工打分;纵向评估:预定一组数据集,以及分析目标,邀请商务智能分析员数名,平分为两组,一组使用普通的商务智能问答工具,另一组使用本方法;记录两组数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110399195.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top