[发明专利]自然语言的处理方法、装置及电子设备有效
申请号: | 202110119937.0 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112800201B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 王碧波;孙闯 | 申请(专利权)人: | 杭州汇数智通科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/335 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 荣颖佳 |
地址: | 310000 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 处理 方法 装置 电子设备 | ||
1.一种自然语言查询语句的处理方法,其特征在于,所述方法应用于服务器,所述服务器中存储有预设数据表、预设关键词表和多个文本重构规则;每个所述文本重构规则包括:基于关键词的至少一个文本重构格式;所述文本重构格式中包括关键词和属性标识的排列组合;
所述方法包括:
获取用户的自然语言查询语句;
对所述自然语言查询语句进行预处理,得到多个目标分词;如果多个所述目标分词中存在阿拉伯数字,将所述阿拉伯数字作为一个目标词;从所述预设数据表和所述预设关键词表中,查找与多个所述目标分词分别匹配的关键词、列名和/或列中值,将匹配到的词作为目标词;为每个所述目标词标注对应的属性标识和位置标识,得到目标词组合;所述目标词组合包括:多个目标词及每个所述目标词对应的属性标识和位置标识;所述属性标识用于表征目标词的词类型;所述位置标识用于表征目标词在所述自然语言查询语句中的位置;所述目标词对应的属性标识包括:关键词标识、列类型标识或数字相关标识;
以属性标识为关键词标识的目标词为索引,从基于关键词的多个文本重构格式中查找对应的文本重构格式;如果查找到的文本重构格式为一个,则将所述文本重构格式作为所述目标词组合对应的目标文本重构格式;如果查找到的文本重构格式为多个,则计算多个所述目标词在每个文本重构格式下的得分,将得分最高的文本重构格式作为所述目标词组合对应的目标文本重构格式;如果未查找到目标词对应的目标文本重构格式,则将所述目标词直接输出;利用所述目标文本重构格式中的属性标识对应的目标词,替换所述目标文本重构格式中的属性标识,得到目标词与关键词的排列组合结果,以完成文本补全;
根据多个所述目标词对应的位置标识,将文本补全后的多个词进行排序,确定目标查询语句;所述目标查询语句为富有逻辑性、语法结构清晰、基于有限目标词的语句;
将所述目标查询语句转换为数据库执行语言,以便进行信息查询。
2.根据权利要求1所述的方法,其特征在于,对所述自然语言查询语句进行预处理,得到多个目标分词的步骤,包括:
对所述自然语言查询语句进行分词处理,得到多个分词;
对多个所述分词进行预设处理,得到多个目标分词;所述预设处理包括以下至少一项:特殊词替换、停用词剔除和中文数字转换;
其中,所述特殊词替换用于将所述分词替换为系统可识别的目标分词;所述停用词剔除用于删除无意义的分词;所述中文数字转换用于将中文数字转换为阿拉伯数字。
3.根据权利要求1所述的方法,其特征在于,所述预设数据表包括列名和列中值;
从所述预设数据表和所述预设关键词表中,查找与多个所述目标分词分别匹配的关键词、列名和/或列中值,将匹配到的词作为目标词的步骤,包括:
将每个所述目标分词作为当前分词,均执行以下步骤:
通过模糊搜索,从所述预设数据表和所述关键词表中查找与所述当前分词模糊匹配的列名、列中值和/或关键词;
计算所述当前分词和其模糊匹配的列名、列中值和/或关键词的相似度,将最大相似度对应的列名、列中值和/或关键词,确定为目标词。
4.根据权利要求3所述的方法,其特征在于,每个列名对应有列类型标识;
为每个所述目标词标注对应的属性标识的步骤,包括:
如果所述目标词为关键词,为所述目标词标注关键词标识;
如果所述目标词为列名或列中值,为所述目标词标注相应的列类型标识;
如果所述目标词为阿拉伯数字,为所述目标词标注相应的数字相关标识;所述数字相关标识包括以下至少之一:数字标识、日期标识、时间长度标识、排名标识、页码标识和分组标识。
5.根据权利要求1所述的方法,其特征在于,所述预设关键词表的类型包括以下中的多项:筛选关键词、排序关键词、数值计算关键词、日期关键词、时间关键词、字符串关键词、增长关键词、分组关键词、vs关键词、地理空间关键词、逻辑计算关键词、页码关键词;所述vs关键词为对比关键词。
6.根据权利要求1所述方法,其特征在于,将所述目标查询语句转换为数据库执行语言的步骤,包括:
通过预先训练好的语句转换模型将所述目标查询语句转换为数据库执行语言。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州汇数智通科技有限公司,未经杭州汇数智通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110119937.0/1.html,转载请声明来源钻瓜专利网。