[发明专利]一种语言识别方法、系统及装置有效
申请号: | 201911408163.2 | 申请日: | 2019-12-31 |
公开(公告)号: | CN113128216B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 邓千;刚周伟;郭麟;陈田川 | 申请(专利权)人: | 中国移动通信集团贵州有限公司;中国移动通信集团有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F18/22 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 李秋华;赵传海 |
地址: | 550081 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 识别 方法 系统 装置 | ||
1.一种语言识别方法,其特征在于,包括:
获取语句的指标类描述;
判断所述指标类描述是否在标准词汇库中具有完全对应的标准指标名;
若是,以所述标准指标名为指标类信息;
若否,结合所述标准词汇库和常规词库对所述指标类描述进行分词后得到分词列表,解析所述分词列表得到目标指标名,以所述目标指标名为所述指标类信息;
所述解析所述分词列表得到目标指标名,包括:
在所述标准词汇库中,查找与分词列表中各分词至少部分对应的标准指标名,依据至少部分对应的所述标准指标名,生成各分词对应的分词集合,所述分词集合中的元素为标准词汇库中的标准指标名;
将所有分词的分词集合取交集;
若所述交集为非空集合时,以所述交集的元素为目标指标名;
若所述交集为空集时,将所有分词的分词集合取并集,分别计算所述并集中每个元素与所述分词列表的相似度,依据相似度的计算结果,从所述并集中获取目标元素,并作为目标指标名。
2.根据权利要求1所述的语言识别方法,其特征在于,所述结合所述标准词汇库和常规词库对所述指标类描述进行分词后得到分词列表,包括:
提取指标类描述中的第一分词,所述第一分词在所述标准词汇库中具有对应标准词汇;
提取指标类描述中的第二分词,所述第二分词在所述常规词库中具有对应的常规词汇;
结合所述第一分词和所述第二分词得到所述分词列表。
3.根据权利要求1所述的语言识别方法,其特征在于,所述分别计算所述并集中每个元素与所述分词列表的相似度,包括:
将所述并集中的每个元素按标准词汇库中的标准词汇进行分词,得到每个元素的元素分词;
依次计算分词相似度,所述分词相似度为每个元素中的每个元素分词与所述分词列表中的各分词的相似度;
计算每个元素中所有的分词相似度的平均值,作为对应元素与分词列表的相似度。
4.根据权利要求1所述的语言识别方法,其特征在于,所述依据相似度的计算结果,从所述并集中获取目标元素,并作为目标指标名,包括:
以所述并集中相似度最高的元素作为目标元素,获得目标指标名;或
以所述并集中相似度至少前两名的元素作为至少两个目标元素,获得至少两个目标指标名。
5.根据权利要求2所述的语言识别方法,其特征在于,在所述提取指标类描述词汇之前,还包括:
提取语句的时间性描述,获得时间信息:和/或
提取语句的地理位置性描述,获得地理位置信息;和/或
提取语句的数据操作性描述,获得数据操作信息;和/或
剔除语句的停用词汇;
在所述得到所述指标类信息之后,还包括:
依据所述指标类信息,以及所述时间信息和/或所述地理位置信息和/或所述数据操作信息识别得到语句语义。
6.根据权利要求5所述的语言识别方法,其特征在于,所述获取语句的指标类描述之前,包括:接收待识别的输入语句;
在所述依据所述指标类信息,以及所述时间信息和/或所述地理位置信息和/或所述数据操作信息识别得到语句语义中,包括:依据所述指标类信息,以及所述时间信息和/或所述地理位置信息和/或所述数据操作信息识别得到输入语句的语义;
在所述依据所述指标类信息,以及所述时间信息和/或所述地理位置信息和/或所述数据操作信息识别得到语句语义之后,包括:
针对所述输入语句的语义,输出对应的回答数据;
接收用户针对所述回答数据是否满意的反馈信息;
根据所述反馈信息,更新映射库中关于所述待识别的输入语句与所述回答数据的映射关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团贵州有限公司;中国移动通信集团有限公司,未经中国移动通信集团贵州有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911408163.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水质监管系统
- 下一篇:降低干扰方法、接入网设备、通信终端和计算机可读介质