[发明专利]语音意图识别模型的训练方法、语音意图识别方法和装置在审
申请号: | 202210767379.3 | 申请日: | 2022-06-30 |
公开(公告)号: | CN114974224A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 付嘉懿;李昊;赵媛媛;王晓瑞 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 苏银虹;王兆赓 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 意图 识别 模型 训练 方法 装置 | ||
本公开关于一种语音意图识别模型的训练方法、语音意图识别方法和装置,训练方法包括:获取文本样本和携带有语义标签的第一语音样本,其中,第一语音样本与文本样本的内容对应,语义标签为文本样本的文本语义特征;利用第一语音样本,对待训练的语音意图识别模型中的语义提取网络进行预训练,得到预训练的语音意图识别模型,其中,预训练的语音意图识别模型中包括预训练的语义提取网络和待训练的意图识别网络;获取携带有意图标签的第二语音样本;利用第二语音样本,对预训练的语音意图识别模型进行训练,得到训练完成的语音意图识别模型。
技术领域
本公开涉及语音识别技术领域,尤其涉及一种语音意图识别模型的训练方法、语音意图识别方法和装置。
背景技术
传统的语音意图识别较多用于人机交互领域,例如智能家居和手机语音助手,在这些场景下,语音往往包含简单的指令性内容,语音内容本身就基本等同于意图。在这种场景下,传统的语音意图识别方法常常应用两阶段模型,第一步先经过ASR(AutomaticSpeech Recognition,自动语音识别)模型,将语音转换为文字(ASR结果),第二步再将ASR结果输入NLU(Natural Language Understanding,自然语言理解)模型,输出预定义好的意图类别。
而随着应用的拓展,越来越需要对大量陈述性的语音内容进行意图识别,但陈述性内容本身常常并不等同于意图。例如,电商直播中,主播可能需要通过闲聊家常、发红包来营造气氛,语音本身的内容并不等同于营造气氛的意图。此时若应用传统的两阶段模型,会存在更加准确的语音识别不一定能使得整体意图识别的准确率更优的问题,使得两个模型的优化目标不一定一致,难以保障语音意图识别的准确率。
为适应这类新场景,相关技术中存在另一种方法,构造语音内容理解的端到端E2E-SLU(End to End Spoken Language Understanding)模型,输入语音信号,输出意图类别。相比传统方法,这种方法全局优化目标一致,准确率更优,然而这种方法的意图识别准确率严重依赖于人工标注的语音-意图成对训练数据的数据量。
发明内容
本公开提供一种语音意图识别模型的训练方法、语音意图识别方法和装置,以至少解决相关技术中的严重依赖人工标注的训练数据的数据量的问题,也可不解决任何上述问题。
根据本公开的第一方面,提供了一种语音意图识别模型的训练方法,所述训练方法包括:获取文本样本和携带有语义标签的第一语音样本,其中,所述第一语音样本与所述文本样本的内容对应,所述语义标签为所述文本样本的文本语义特征;利用所述第一语音样本,对待训练的语音意图识别模型中的语义提取网络进行预训练,得到预训练的语音意图识别模型,其中,所述预训练的语音意图识别模型中包括预训练的语义提取网络和待训练的意图识别网络;获取携带有意图标签的第二语音样本;利用所述第二语音样本,对所述预训练的语音意图识别模型进行训练,得到训练完成的语音意图识别模型。
可选地,所述利用所述第一语音样本,对待训练的语音意图识别模型中的语义提取网络进行预训练,包括:将所述第一语音样本的语音特征输入所述待训练的语音意图识别模型中的语义提取网络,得到所述第一语音样本的第一语音语义特征;确定所述第一语音语义特征和所述文本语义特征之间的语义相似度;基于所述语义相似度,调整所述待训练的语音意图识别模型中的语义提取网络的参数,以对所述待训练的语音意图识别模型中的语义提取网络进行预训练。
可选地,所述确定所述第一语音语义特征和所述文本语义特征之间的语义相似度,包括:分别确定所述第一语音语义特征对应的语音表示向量和所述文本语义特征对应的文本表示向量;确定所述语音表示向量和所述文本表示向量之间的语义相似度,作为所述第一语音语义特征和所述文本语义特征之间的语义相似度。
可选地,所述确定所述语音语义特征对应的语音表示向量,包括:对所述第一语音语义特征进行时间维度上的池化处理,得到所述语音表示向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210767379.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种卧式涡旋压缩机的双路油循环供油结构
- 下一篇:颈部按摩仪及其控制方法