[发明专利]模型训练、语义完整性识别方法和装置在审
申请号: | 202010794728.1 | 申请日: | 2020-08-10 |
公开(公告)号: | CN112183114A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 夏海兵;佘丽丽;毛宇;林昊;徐伟 | 申请(专利权)人: | 招联消费金融有限公司 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/279 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 刘佳妮 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 语义 完整性 识别 方法 装置 | ||
本申请涉及一种模型训练、语义完整性识别方法和装置。所述方法包括:获取待识别语句;获取语义完整样本;根据所述语义完整样本,得到语义不完整样本;根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本;根据所述模型训练样本对所述完整性识别模型进行训练,得到训练后完整性识别模型;所述训练后完整性识别模型用于对待识别语句进行语义完整性识别。采用本方法能够使训练样本中既包含语义完整样本又包含语义不完整样本,训练得到的模型能够结合语义完整特征和语义不完整特征识别语义完整性,可以提高语义完整性识别的准确性。
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种用于语义完整性识别的模型训练方法和装置、一种语义完整性识别方法和装置、一种计算机设备和一种存储介质。
背景技术
随着自然语言处理技术的发展,出现了人机交互技术,人机交互具备交互性和实时性,通过设置音频静音等待时间,智能体可以在实时交互过程中确定何时开始回复客户,然而,当静音等待时间设置过长时,容易导致客户在长期未得到回应的情况下继续表述,从而造成串话、多意图的现象,容易造成交互流畅度不高。
目前的解决方法是通过ASR(Automatic Speech Recognition,自动语音识别)实时流式反馈客户话术的文本信息,流式判断客户话术语义表述的完整性,进而根据完整性来动态调整静音等待时间。然而,ASR方法容易受识别词汇表大小、语音复杂性和语音信号质量的限制,容易导致语义完整行识别的准确性较低。
因此,目前的语义完整性识别技术存在识别准确性较低的问题。
发明内容
基于此,有必要针对语义完整性识别准确性较低的技术问题,提供一种用于语义完整性识别的模型训练方法和装置、一种语义完整性识别方法和装置、一种计算机设备和一种存储介质。
一种用于语义完整性识别的模型训练方法,所述方法包括:
获取语义完整样本;
根据所述语义完整样本,得到语义不完整样本;
根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本;
根据所述模型训练样本对所述完整性识别模型进行训练,得到训练后完整性识别模型;所述训练后完整性识别模型用于对待识别语句进行语义完整性识别。
在其中一个实施例中,所述语义完整样本包括完整样本语句;所述根据所述语义完整样本,得到语义不完整样本,包括:
对所述完整样本语句进行切词处理,得到完整样本词;
通过去除所述完整样本词中的停用词,得到完整样本关键词;
通过对所述完整样本关键词进行不完全选取,得到不完整样本关键词;
根据所述不完整样本关键词,得到所述语义不完整样本。
在其中一个实施例中,所述根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本,包括:
对所述完整样本关键词进行编码,得到完整样本关键词编码,以及,对所述不完整样本关键词进行编码,得到不完整样本关键词编码;
根据所述完整样本关键词编码和所述不完整样本关键词编码,得到所述模型训练样本。
在其中一个实施例中,所述根据所述语义完整样本和所述语义不完整样本,得到完整性识别模型的模型训练样本,还包括:
获取所述完整样本关键词对应的完整样本词性,以及,获取所述不完整样本关键词对应的不完整样本词性;
对所述完整样本词性进行编码,得到完整样本词性编码,以及,对所述不完整样本词性进行编码,得到不完整样本词性编码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于招联消费金融有限公司,未经招联消费金融有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010794728.1/2.html,转载请声明来源钻瓜专利网。