[发明专利]自然语言的处理方法、装置及电子设备有效
申请号: | 202110119937.0 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112800201B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 王碧波;孙闯 | 申请(专利权)人: | 杭州汇数智通科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/335 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 荣颖佳 |
地址: | 310000 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 处理 方法 装置 电子设备 | ||
本申请提供了一种自然语言查询语句的处理方法、装置及电子设备,方法包括:获取用户的自然语言查询语句;根据预设数据表和预设关键词表,对自然语言查询语句进行目标词提取及标识标注,得到目标词组合,即多个目标词及每个目标词对应的属性标识和位置标识;根据多个目标词分别对应的属性标识和位置标识,利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构,得到目标查询语句;将目标查询语句转换为数据库执行语言,以便进行信息查询。本申请能够通过目标词提取和基于规则的文本重构过程,将用户的自然语言查询语句转换为目标查询语句,然后再将目标查询语句转换为数据库执行语言,通过两次转换可以大大提高信息查询的准确度。
技术领域
本申请涉及自然语言处理技术领域,尤其是涉及一种自然语言的处理方法、装置及电子设备。
背景技术
在基于用户输入的自然语言进行信息搜索的过程中,现有的处理思路往往是通过某种算法建立一个直接从纯自然语言到数据库(如:SQL)执行语言的映射关系,通过该映射关系就可以将自然语言直接转化为数据库执行语言,从而完成信息搜索。然而这种方式只需要进行一次转换过程,往往会存在转换精确度不够的问题,即可能导致转换后的数据库执行语言存在偏差,进而导致信息的搜索结果不够精准。
发明内容
本申请的目的在于提供一种自然语言的处理方法、装置及电子设备,能够通过目标词提取和基于规则的文本重构过程,将用户的自然语言查询语句转换为目标查询语句,然后再将目标查询语句转换为数据库执行语言,通过两次转换可以大大提高信息查询的准确度。
第一方面,本申请实施例提供一种自然语言查询语句的处理方法,方法应用于服务器,服务器中存储有预设数据表、预设关键词表和多个文本重构规则;方法包括:获取用户的自然语言查询语句;根据预设数据表和预设关键词表,对自然语言查询语句进行目标词提取及标识标注,得到目标词组合;目标词组合包括:多个目标词及每个目标词对应的属性标识和位置标识;属性标识用于表征目标词的词类型;位置标识用于表征目标词在自然语言查询语句中的位置;根据多个目标词分别对应的属性标识和位置标识,利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构,得到目标查询语句;将目标查询语句转换为数据库执行语言,以便进行信息查询。
进一步的,上述根据预设数据表和预设关键词表,对自然语言查询语句进行目标词提取和标识标注,得到目标词组合的步骤,包括:对自然语言查询语句进行预处理,得到多个目标分词;如果多个目标分词中存在阿拉伯数字,将阿拉伯数字作为一个目标词;从预设数据表和预设关键词表中,查找与多个目标分词分别匹配的关键词、列名和/或列中值,将匹配到的词作为目标词;为每个目标词标注对应的属性标识和位置标识,得到目标词组合。
进一步的,上述对自然语言查询语句进行预处理,得到多个目标分词的步骤,包括:对自然语言查询语句进行分词处理,得到多个分词;对多个分词进行预设处理,得到多个目标分词;预设处理包括以下至少一项:特殊词替换、停用词剔除和中文数字转换;其中,特殊词替换用于将分词替换为系统可识别的目标分词;停用词剔除用于删除无意义的分词;中文数字转换用于将中文数字转换为阿拉伯数字。
进一步的,上述预设数据表包括列名和列中值;从预设数据表和预设关键词表中,查找与多个目标分词分别匹配的关键词、列名和/或列中值,将匹配到的词作为目标词的步骤,包括:将每个目标分词作为当前分词,均执行以下步骤:通过模糊搜索,从预设数据表和关键词表中查找与当前分词模糊匹配的列名、列中值和/或关键词;计算当前分词和其模糊匹配的列名、列中值和/或关键词的相似度,将最大相似度对应的列名、列中值和/或关键词,确定为目标词。
进一步的,上述每个列名对应有列类型标识;为每个目标词标注对应的属性标识的步骤,包括:如果目标词为关键词,为目标词标注关键词标识;如果目标词为列名或列中值,为目标词标注相应的列类型标识;如果目标词为阿拉伯数字,为目标词标注相应的数字相关标识;数字相关标识包括以下至少之一:数字标识、日期标识、时间长度标识、排名标识、页码标识和分组标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州汇数智通科技有限公司,未经杭州汇数智通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110119937.0/2.html,转载请声明来源钻瓜专利网。