[发明专利]一种基于混合架构的表格语义查询粗排方法在审
申请号: | 202111428079.4 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114064820A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 李炜;赵冬昊;季晓娟;赵伟;陈文军;王中澎;李蓉;李力田;李硕 | 申请(专利权)人: | 上证所信息网络有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2455;G06F16/22;G06F40/30 |
代理公司: | 上海三方专利事务所(普通合伙) 31127 | 代理人: | 吴玮 |
地址: | 201203 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 架构 表格 语义 查询 方法 | ||
1.一种基于混合架构的表格语义查询粗排方法,其特征在于构建粗排模型,方法具体如下:
步骤一.上下文模型编码,将表名及列名进行编码,为数据库表名和列名构建唯一标识符号,建立映射关系,将标识符与表名及列名含义进行拼接组成上下文,作为查询语句的先验知识;
步骤二.构建输入,将问题和上下文分别独立进行bert编码,采用bert预训练模型作为输入,编码构建方式为:[cls]question[sep],[cls]context[sep],question为输入的问题,context上下文编码;
步骤三.构建输出;
步骤四.构建训练模型,将步骤二输出的查询向量和上下文向量进行拼接,输入transformer层产生中间向量,后将中间向量接入CRF层进行实体识别;
步骤五.模型训练,根据步骤二和步骤三产生的输入和输出集并结合步骤四进行微调训练;
步骤六.离线上下文向量加载,根据步骤五的模型,事先将所有的上下文进行向量输出并保存至dump文件中,推理时加载本地dump文件中的离线缓存上下文向量Vector_Context(s),s为离线缓存到dump文件中的向量个数;
步骤七.推理阶段,根据步骤五的模型,将编码后的查询语句Vector_Query扩展到s个,然后与离线缓存向量Vector_Context(s)一一对应进行拼接产生Vector_New(s),输入模型后进行预测;
步骤八.对实体标签进行是筛选,将满足条件输出进行合并,得到模型输出的关联数据表名。
2.如权利要求1所述的一种基于混合架构的表格语义查询粗排方法,其特征在于:所述的步骤一包括
A.确定好上下文全局最大长度Lvec;
B.对于关系型数据表名和列名注释信息,以列名字段注释值或其对应的同义词为列名单元(以下简称列名单元),将表中所有列名单元随机进行打乱组合产生N个组合,表名字段注释值或其对应的同义词(以下简称表名单元)分别与这个N个组合进行拼接,产生N个上下文,与原有的上下文一起共产生N+1个上下文;
C.上下文切割归集,对于N+1个上下文,对每一个上下文以列名单元进行切割,保证切割后(表名单元+mcols*列名单元)的长度不超过Lvec,其中mcols为本次容纳字段个数,切割完成后的子上下文加入新的集合中,供后续步骤使用。
3.如权利要求1所述的一种基于混合架构的表格语义查询粗排方法,其特征在于:所述的步骤四和步骤七的拼接方法如下:
Vector_Query拆分成Vector_Query_v和Vector_Query_p,Vector_Query_v为Vector_Query有效向量(即含[cls]xxx[sep]部分),Vector_Query_p为填充向量(含[PAD]部分)
Vector_New=Vector_Query_p(s)+Vector_Context(s)+Vector_Query_v(s)。s为向量的个数。
4.如权利要求1所述的一种基于混合架构的表格语义查询粗排方法,其特征在于还包括字典定义,构建表名注释或同义词、列名注释含义或同义词与关系型数据库表名建立映射关系,构建字典库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上证所信息网络有限公司,未经上证所信息网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111428079.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有提示功能的门扇虚掩装置
- 下一篇:一种网络直播用固定支架