[发明专利]一种通过自然语言获取数据库信息的自动化系统在审
申请号: | 201911175062.5 | 申请日: | 2019-11-26 |
公开(公告)号: | CN111125145A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 李安贞;邹乔莎;史传进 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/248;G06F16/28 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通过 自然语言 获取 数据库 信息 自动化 系统 | ||
1.一种通过自然语言获取数据库信息的自动化系统,其特征在于,采用计算机算法分析口语化的自然语言表达,进而从关系型数据库中获取信息;系统的输入信息包括两个部分:使用者录入的语音信息以及使用者输入的文本信息;系统采用关系型数据库查询方法、机器学习算法和深度学习算法,通过语音识别、文本语义分析,结合数据库查询语句语法、数据库存储信息,训练计算机算法学习使用者查询数据库的意图,从而生成跨表的数据库查询语句,通过该查询语句访问数据库,返回并展示查询结果;
其中,所述文本信息是使用者对数据库信息提问的文本信息,语音信息是使用者对数据库提问的语言信息,用于识别使用者访问数据库的意图;
系统包括:多媒体信息采集设备,数据库存储设备,自动化信息分析设备,客户端软件;其中:
所述多媒体信息采集设备,即客户端,用于自动化信息采集;
所述数据库存储设备,用于数据存储、读取等操作过程;所述数据库存储设备包括存储数据库的服务器设备,以及设备之间联接和信息传输的线路;
所述自动化信息分析设备,用于自动化信息分析;所述信息分析设备包括进行算法分析的服务器设备,以及设备之间联接和信息传输的线路;自动化信息分析设备通过分析输入信息,并结合数据库查询语句语法、数据库存储信息,生成跨表的数据库查询语句;包括:通过语音识别技术将采集到的语音信息转化为文本信息;将识别后的文本信息通过文本语义分析、深度学习算法,训练计算机算法学习使用者查询数据库的意图;利用识别的意图、数据库存储设备中存储的数据库结构以及数据库查询语句语法,生成跨表的数据库查询语句;通过该查询语句访问数据库,返回并展示查询结果;
所述客户端软件,由使用者操作,客户端软件通过与使用者交互,完成使用者语言、文本信息的输入,以及控制信息采集设备的运行,将采集信息提交给自动化信息分析设备,最终将分析结果通过报告、页面展示、语音播报等形式从客户端返回给使用者。
2.根据权利要求1所述的通过自然语言获取数据库信息的自动化系统,其特征在于,所述多媒体信息采集设备包括:
文本信息采集所需的键盘或者鼠标触摸板设备,语音信息采集所需的麦克风设备,与用户交互的显示设备,以及设备之间联接和信息传输的线路。
3.根据权利要求1所述的通过自然语言获取数据库信息的自动化系统,其特征在于,所述自动化信息分析设备中进行自动化分析,包括自动将口语化的输入信息通过计算机算法转化为数据库查询语句,从而对数据库进行访问并返回结果的过程;具体步骤为:
步骤401,数据预处理;系统对输入的语音数据进行语音识别,并转成文本数据,再对所有的文本数据进行数据清洗、消歧、单位统一、字段对齐等预处理操作,最终将口语化的文本数据转化为与数据库存储内容对齐的标准化文本数据;
步骤402,意图识别;为了能实现跨表查询操作,将标准化文本数据送入到意图识别模块进行意图识别;通过意图识别模块,利用深度学习、机器学习算法,对标准化文本数据进语义分析,让系统明白用户访问数据库的实际需求,从而具体定位到数据库的某个表上,这样就不需要事先限制用户查询数据库的范围,由系统自动实现跨表查询;
步骤403,单表查询;在定位到表后,系统通过单表查询,结合数据库查询语句语法、数据库存储信息,生成数据库查询语句;
步骤404,访问数据库;通过步骤403生成的查询语句,访问数据库,返回数据库查询结果;
步骤405,数据后处理;由于关系型数据库存储的信息非常简洁,需要通过数据后处理,结合输入文本、语音信息及数据库信息,生成更加丰富并符合自然语言语法的完整回答返回给客户端用于展示。
4.根据权利要求1所述的通过自然语言获取数据库信息的自动化系统,其特征在于,所述自动化信息分析设备中进行自动化分析,具体步骤为:
与权利要求3的区别在于,用多表表征步骤502和跨表查询步骤503替换权利要求3中意图识别步骤402和单表查询步骤403;通过多表表征步骤502,系统直接获取整个数据库中所有表格、表格中所有列以及所有表格之间关系的信息,这里采用的方法包括图神经网络、长短期记忆网络、预训练语言模型深度学习算法;在获得多表表征后,结合标准化文本数据进行跨表查询步骤503,一次性完成语义分析、意图识别和生成数据库查询语句的操作;步骤504、步骤505,权利要求3中的步骤404、步骤405相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911175062.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:隔离开关用导电连接及折臂式隔离开关
- 下一篇:一种可调增速稳流型理化安全柜