[发明专利]自动语音识别装置及方法在审
申请号: | 201880073991.2 | 申请日: | 2018-11-06 |
公开(公告)号: | CN111357049A | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 黄铭振;池昌真 | 申请(专利权)人: | 语享路有限责任公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06;G10L15/14 |
代理公司: | 上海翼胜专利商标事务所(普通合伙) 31218 | 代理人: | 翟羽 |
地址: | 韩国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 语音 识别 装置 方法 | ||
本发明提供一种自动语音识别装置及方法,包括用于存储将通过接口模块接收的语音数据转换并输出为记录数据的程序的存储器以及用于执行存储在所述存储器中的程序的处理器,当所述处理器执行所述程序时,基于预训练的第一模型将接收到的所述语音数据转换为发音代码数据,且基于预训练的第二模型将转换后的所述发音代码数据转换为记录数据。
技术领域
本发明涉及一种自动语音识别装置及方法,尤其涉及一种用于提取不失真语音特征的自动语音识别装置及方法。
背景技术
自动语音识别(Speech To Text,STT)是一种自动将原始语音数据转换为适合的字母串的计算技术。在广播、电话咨询、记录、翻译和大数据分析等各个领域都的语音数据分析需要正在逐渐增长。
这些自动语音识别中的大多数可以包括使用声学模型从语音中提取和符号化特征,以及根据上下文在使用语言模型编码的多个候选中选择合适的候选。
另一方面,若原始数据是语音,则不可能直接提取必要的信息,因此将其转换为字母串的过程是必不可少的,但是若手动执行这样的过程,则存在需要花费大量时间和金钱来解决的问题。对高速和准确的自动语音识别的需求不断增长。
为了制造可以使用的高质量语音识别器,有必要构造大量的语音数据和与其对应的字母串数据,即由语音字母串组成的并行数据。
另外,由于实际的发音和符号通常是不同的,因此必须构造能够添加相关信息或发音-符号转换规则数据的程序。
因此,对于国内外的主要语言,几家公司已经确保了语音字母串并行数据和发音符号转换规则数据,并且已经确保了语音识别质量超过一定水平。
然而,语音字母串并行数据或语音-注释转换规则的不完整问题以及由语音-注释转换规则引起的各种中立性导致的数据失真的问题使语音识别的质量恶化。
另外,在开发一种新语言的识别器的情况下,在构造语音字母串并行数据和发音符号转换规则的过程中会产生很多财务和时间上的成本,并且获得质量数据也不容易。
发明内容
要解决的技术问题
本发明是鉴于所述诸多问题而提出的,其目的在于,提供一种防止由用于语音识别的学习数据而导致的信息失真,以低成本的数据确保了高质量的性能,并且利用已经开发的语音识别器来最小化第三种语言的语音成本的自动语音识别装置和方法。
然而,本实施例要实现的技术效果不限于如上所述的技术效果,可能还存在其他技术效果。
技术方案
为了实现所述目的,本发明的自动语音识别装置,包括用于存储将通过接口模块接收的语音数据转换并输出为记录数据的程序的存储器以及用于执行存储在所述存储器中的程序的处理器,当所述处理器执行所述程序时,基于预训练的第一模型将接收到的所述语音数据转换为发音代码数据,且基于预训练的第二模型将转换后的所述发音代码数据转换为记录数据。
预训练的所述第一模型是语音发音代码转换模型,且基于由所述语音数据和发音代码数据组成的并行数据来学习所述语音发音代码转换模型。
转换后的所述发音代码数据由以一维结构表示的长度为1以上的音素或特征值字母串组成。
转换后的所述发音代码数据由与语言无关的值组成。
预先训练的所述第二模型是发音代码记录转换模型,基于由所述发音代码数据和记录数据组成的并行数据来学习所述发音代码记录转换模型。
预先训练的所述第二模型是发音代码记录转换模型,所述第二模型一次将序列型发音代码转换为序列型记录。
预先训练的所述第一模型是语音发音代码转换模型,并且通过基于预先准备的语音数据学习无监督来生成所述语音发音代码转换模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语享路有限责任公司,未经语享路有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880073991.2/2.html,转载请声明来源钻瓜专利网。