[发明专利]一种基于混合架构的表格语义查询粗排方法在审
申请号: | 202111428079.4 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114064820A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 李炜;赵冬昊;季晓娟;赵伟;陈文军;王中澎;李蓉;李力田;李硕 | 申请(专利权)人: | 上证所信息网络有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2455;G06F16/22;G06F40/30 |
代理公司: | 上海三方专利事务所(普通合伙) 31127 | 代理人: | 吴玮 |
地址: | 201203 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 架构 表格 语义 查询 方法 | ||
本发明涉及人机对话、智能语义搜索技术领域,具体来说是一种基于混合架构的表格语义查询粗排方法,上下文模型编码,将表名及列名进行编码,为数据库表名和列名构建唯一标识符号,建立映射关系,将标识符与表名及列名含义进行拼接组成上下文,作为查询语句的先验知识,具备字典识别的高效,满足专业限定领域的专业术语的识别;事先将上下文向量离线生成,省去了预训练模型的编码计算过程,提升在线响应时间,同时满足泛化需求,能够识别常用口语化及相似词语。
技术领域
本发明涉及人机对话、智能语义搜索技术领域,具体来说是一种基于混合架构的表格语义查询粗排方法。
背景技术
目前语义分析中基于粗排的方法主要有基于词典或分词后的倒排索引方法,这种直接快速,但对于同义词或者同义短语缺乏泛化能力。而直接用训练模型(如bert等预训练模型)实时计算,线上成本较高,不能满足大规模数据高并发在线实时计算要求。因此本文提出一种基于缓存技术的混合架构粗排方法,从全量数据集中筛选候选集合,然后再传给精排模型,以提升系统的响应时间。
发明内容
本发明用以解决金融领域复杂上下文环境下查询语句的实体粗排问题,提供一种基于混合架构的表格语义查询粗排方法,特征在于构建粗排模型,方法具体如下:
步骤一.上下文模型编码,将表名及列名进行编码,为数据库表名和列名构建唯一标识符号,建立映射关系,将标识符与表名及列名含义进行拼接组成上下文,作为查询语句的先验知识;
步骤二.构建输入,将问题和上下文进行分别bert编码,采用bert预训练模型作为输入,编码构建方式为:[cls]question[sep],[cls]context[sep],question为输入的问题,context上下文编码;
步骤三.构建输出;
步骤四.构建训练模型,将步骤二输出的查询向量和上下文向量进行拼接,输入transformer层产生中间向量,后将中间向量接入CRF层进行实体识别;
步骤五.模型训练,根据步骤二和步骤三产生的输入和输出集并结合步骤四进行微调训练;
步骤六.离线上下文向量加载,根据步骤五的模型,事先将所有的上下文进行向量输出并保存至dump文件中,推理时加载本地dump文件中的离线缓存上下文向量Vector_Context(s),s为离线缓存到dump文件中的向量个数;
步骤七.推理阶段,根据步骤五的模型,将编码后的查询语句Vector_Query扩展到s个,然后与离线缓存向量Vector_Context(s)一一对应进行拼接产生Vector_New(s),输入模型后进行预测;
步骤八.对实体标签进行是筛选,将满足条件输出进行合并,得到模型输出的关联数据表名。
本发明还具有如下优选的技术方案:
1.步骤一包括
A.确定好上下文最大长度Lvec;
B.对于关系型数据表名和列名注释信息,以列名字段注释值或其对应的同义词为列名单元(以下简称列名单元),将表中所有列名单元随机进行打乱组合产生N个组合,表名字段注释值或其对应的同义词(以下简称表名单元)分别与这个N个组合进行拼接,产生N个上下文,与原有的上下文一起共产生N+1个上下文;
C.上下文切割归集,对于N+1个上下文,对每一个上下文以列名单元进行切割,保证切割后(表名单元+mcols*列名单元)的长度不超过Lvec,其中mcols为本次容纳字段个数,切割完成后即完成编码,供后续步骤使用。
2.步骤四和步骤七的拼接方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上证所信息网络有限公司,未经上证所信息网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111428079.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种有提示功能的门扇虚掩装置
- 下一篇:一种网络直播用固定支架