[发明专利]一种面向主数据的自然语言查询并智能生成报表的方法在审
申请号: | 201910937574.4 | 申请日: | 2019-09-30 |
公开(公告)号: | CN110674164A | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 孟涛;李佳静 | 申请(专利权)人: | 南京网感至察信息科技有限公司 |
主分类号: | G06F16/2452 | 分类号: | G06F16/2452;G06F40/35 |
代理公司: | 32385 苏州言思嘉信专利代理事务所(普通合伙) | 代理人: | 邵永永 |
地址: | 210001 江苏省南京市秦淮区光华路1*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主数据 自然语言查询 业务数据 智能生成 规则库 基础库 自然语言 知识库 查询统计分析 自然语言理解 结构化存储 数据库技术 表现形式 查询方式 查询目标 查询请求 查询条件 数据分析 图表查询 系统输入 用户查询 用户使用 用户提供 语料库 构建 可选 抽取 查询 | ||
1.一种面向主数据的自然语言查询并智能生成报表的方法,其特征在于:包括以下步骤:
S1.基于结构化存储的主数据和业务数据,构建查询统计分析的基础库,包括语料库、知识库、规则库,其中规则库为可选;
S2.用户使用自然语言,向系统输入查询请求;
S3.基于步骤1建立的基础库,对用户查询进行抽取,获得其中包括但不限于涉及的主数据和业务数据的查询目标、查询条件和结果表现形式等查询意图要素;
S4.基于步骤3获得的查询目标和查询条件,生成对应的结构化查询语句,进一步获得查询统计分析结果列表;
S5.基于步骤3获得的结果表现形式和步骤4获得的查询统计分析结果列表,生成报表并展示给用户。
2.根据权利要求1所述的一种面向主数据的自然语言查询并智能生成报表的方法,其特征在于:所述步骤1的具体步骤如下:
1)建立查询统计分析的语料库,以用户上传、爬虫获取、系统API读入等多种方式,获得一组主数据,及其与它们关联的时间序列形式的业务数据,其中主数据和业务数据组织如下:
a.一个主数据为一个数据表格,存储着一类目标的实例,表格的每一行存储的是一个目标,表格的每一列是目标的一个属性字段,表头对应着属性名;
b.一个业务数据为由一组主数据形成关联,并随着时间持续产生和积累的数据;
c.对主数据和业务数据进行预处理,包括文本提取等,形成语料库;开始时有少量人工整理的常见用户查询语句作为语料库,随着系统的使用,不断将用户的查询语句加入到语料库中;
2)建立查询统计分析的知识库:
a.通用实体获取,包括时间和地点等,时间包括年月日的组合等,采用枚举的方式定义;地点包括省、市、区、县的层次关系,使用网络爬虫程序在指定网站中自动获取;
b.自动从主数据和业务数据中抽取实体和实体间的关系,其中实体来源有两类,一类是表头,另一类是某一个目标某一列的取值,实体的类型应该包括但不限于,公司名、部门名、机构名和商品名等,实体间的关系根据表关系建立;
3)建立查询统计分析的规则库:
将使用自然语言的查询定义为如下的查询表达:
QueryRequest→QueryT+QueryCon+QueryS
其中QueryRequest是自然语言查询问句,QueryT是查询目标要素,QueryCon是查询条件要素,QueryS是表现形式要素,在实现中,关注自然语言查询问句中的如下语言成分:
(1)对象名;
(2)属性值;
(3)量词;
(4)比较词;
(5)聚集操作词;
(6)连接词;
(7)统计方式词;
查询目标要素、查询条件要素和表现形式要素由以上语言成分和它们的组合构成,统计规则库基于语料库和知识库,用以从自然语言查询问句中标注查询目标、查询条件和表现形式,实际上完成对以上语言成分和它们的组合的标注,规则库中包括但不限于以下几类规则:
(1)查询目标规则:查询目标规则用于对自然查询语句中的查询目标要素进行标注和汇集,包括对象名、量词和聚集操作词等,得到查询目标集合;
可能的查询目标包括但不限于销量、销售额、时间、地区、公司、商务代表、上下游企业、上下游省份、城市、部门、上级部门、下级部门、部门类型、管辖区域、区县、等级、企业类型、别名、规格、型号、出厂价、单价、品类、规格、型号、批号、销售状态等;
(2)查询条件规则:查询条件规则用于对自然查询语句中的查询条件进行标注和汇集,得到查询条件组合,主要对查询中的各类型条件进行标注,包括查询条件中的对象名、比较词和属性值,以及连接词等;
(3)表现形式规则:表现形式规则实现对自然查询语句中的表现形式进行标注,主要包括统计方式词等的标注,标注的内容包括但不限于如下类别:
i)具体数值查询;
ii)统计计算结果查询;
iii)列表查询;
iiii)图表查询;
其中规则库为可选。
3.根据权利要求1所述的一种面向主数据的自然语言查询并智能生成报表的方法,其特征在于:所述步骤2中用户输入的使用自然语言描述的查询请求,包含但不限于文字形式的自然语言描述,以及经OCR或ASR等技术处理后产生的文字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京网感至察信息科技有限公司,未经南京网感至察信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910937574.4/1.html,转载请声明来源钻瓜专利网。