[发明专利]语音转写方法、装置、相关系统及设备在审
申请号: | 201911159513.6 | 申请日: | 2019-11-22 |
公开(公告)号: | CN112837688A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 陈梦喆;陈谦;李博 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/18 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 钱秀茹 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 转写 方法 装置 相关 系统 设备 | ||
本申请公开了语音识别方法、装置、相关系统,以及电子设备。其中,方法包括:确定与待识别语音数据对应的第一文本序列;确定所述语音数据的声学特征信息;根据所述第一文本序列和所述声学特征信息,确定与所述语音数据对应的包括标点符号信息的第二文本序列。采用这种处理方式,使得在根据语音数据的文本语义信息确定标点符号信息的基础上,还综合利用语音数据的声学特征信息进行标点符号信息的预测,利用上了声学特征信息后就可以更好地利用说话人本身的用意,得到更符合口语的标点符号;因此,可以有效提升语音文本标点符号的识别准确度。
技术领域
本申请涉及数据处理技术领域,具体涉及语音交互系统、方法和装置,语音转写系统、方法和装置,语音识别方法和装置,用于构建语音文本标点符号预测模型的方法和装置,语音处理方法,点餐设备,智能音箱,语音转写设备,以及电子设备。
背景技术
语音转写系统是一种可将语音转写为文字的语音处理系统。通过该系统可自动形成会议纪要,以提高会议效率、发挥会议功能,避免人力物力财力浪费、降低会议成本、达成人力资源效率化。
实时语音转写系统通常输出的文本是不带标点符号的文本,这样会使用户阅读成本较高。为了保证自动语音识别ASR系统识别的文本有很好的上屏阅读体验,在通过ASR系统获取语音数据的解码结果后,还需要通过标点符号预测模型为ASR解码结果打上标点符号,以方便阅读。标点符号预测是一种对当前文本判断出标点符号的任务,一种典型的标点符号预测方法采用如下处理方式,即:基于口语的文本语义对ASR解码得到的口语文本中可能出现的标点符号进行预测。
然而,在实现本发明过程中,发明人发现该技术方案至少存在如下问题:该方案只考虑文本语义进行标点符号预测,但是口语语料有时语义并不是很完整,这样就会导致纯靠语义的打标常常会得到不理想的结果。综上所述,现有方案存在语音文本的标点符号识别准确度较低的问题。
发明内容
本申请提供语音转写系统,以解决现有技术存在的无法正确识别语音文本的标点符号的问题。本申请另外提供语音转写方法和装置,语音识别方法和装置,用于构建语音文本标点符号预测模型的方法和装置,语音交互系统、方法和装置,语音处理方法,点餐设备,智能音箱,语音转写设备,以及电子设备。
本申请提供一种语音转写系统,包括:
服务端,用于接收客户端发送的待转写语音数据;确定与所述语音数据对应的第一文本序列;确定所述语音数据的声学特征信息;根据所述第一文本序列和所述声学特征信息,确定与所述语音数据对应的包括标点符号信息的第二文本序列;向客户端回送所述第二文本序列;
客户端,用于采集所述语音数据,向所述服务端发送所述语音数据;接收所述服务端回送的所述第二文本序列,展示所述第二文本序列。
本申请还提供一种语音转写方法,包括:
接收客户端发送的待转写语音数据;
确定与所述语音数据对应的第一文本序列;
确定所述语音数据的声学特征信息;
根据所述第一文本序列和所述声学特征信息,确定与所述语音数据对应的包括标点符号信息的第二文本序列;
向客户端回送所述第二文本序列。
可选的,所述标点符号信息包括与所述语音数据的文本语义信息和所述声学特征信息相关的标点符号信息。
可选的,所述声学特征信息包括以下信息的至少一种:
Bottleneck特征,fbank特征,词时长,词后静音时长,pitch特征。
可选的,所述确定与所述语音数据对应的第一文本序列,包括:
通过声学模型和语言模型,确定所述第一文本序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911159513.6/2.html,转载请声明来源钻瓜专利网。