[发明专利]语音识别方法、语音识别装置和电子设备在审
申请号: | 202111077163.6 | 申请日: | 2021-09-13 |
公开(公告)号: | CN114333785A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 武燕 | 申请(专利权)人: | 中科聚信信息技术(北京)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/10;G10L15/14;G10L15/02;G10L25/24 |
代理公司: | 北京彩和律师事务所 11688 | 代理人: | 刘磊;闫桑田 |
地址: | 100081 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 电子设备 | ||
本申请公开了一种语音识别方法、语音识别装置和电子设备。所述语音识别方法将基于支持向量机的分类器和隐马尔可夫模型应用于中文语音识别的应用中,以提高语音识别的准确度。所述方法包括训练阶段和识别阶段,训练阶段是基于机器学习的模型训练原理来调整基于支持向量机的分类器和隐马尔可夫模型的参数,这样在识别阶段就可以使用训练完成的模型来进行语音识别。
技术领域
本申请涉及语音识别领域,且更为具体地涉及基于支持向量机和隐马尔可夫模型的语音识别方法、语音识别装置和电子设备。
背景技术
近几年,随着AI技术的不断落地应用,自然语言处理越来越受到人们的关注,在非结构化文本处理技术的不断提高,人们越来越想让电脑更准确理解人类的语音和语义,故语音识别技术变得更加重要。目前,语音识别技术的应用,人类已经能够不用操作鼠标,键盘,而用语音来代替,但是准确性仍是人们追求的目标。该技术是一门交叉学科,关系到语音语言学、信号处理、模式识别、心理生理学等多学科的研究领域,不同领域上的研究成果都对语音识别发展做出了巨大的贡献。这项技术是让机器通过训练和识别过程把语音信号转化为相应的文本或命令以及在识别声学信息的基础上对语言进行理解的高深技术,已从实验室走向应用,通过对各种算法的研究,使这项技术的改进功能应用于其他更多的方面。
目前,语音识别系统可以根据说话人的方式进行分类,即孤立单个词识别系统,连接词识别系统,连续语音识别系统。
基于以上的分类,语音识别又有如下的主要功能:
声纹辨识:根据波形中反映说话人生理和行为特征的参数,自动识别说话人身份。
内容辨识:对声音语音材料实际意义的理解。
语种识别:对声音材料的语种特点的辨识。
语音标准辨识:对个人音准状况做出评判,并指出发音不准的问题。
语音识别根据不同功能的实现,采用的方法也有所不同,用到的方法主要有三大类:
1、模式匹配:这是一种比较成熟的算法,主要思想是训练得到话语者的模板,然后识别时找到与这些模板最接近的。
2、概率统计:考虑到语音短时间内平稳的特点,可以使用均值、方差等统计量值以及概率密度函量值进行判断。
3、辨别分类器:通过判断模型而进行的识别。主要用于说话人识别,其中典型的方法是神经网络方法。
人类良好的听力能力是在人际交往的社会环境中建立起来的,想让计算机具备与人类的听力能力是相当困难的。再加上识别环境的不同,噪声程度不同,人们说话时感情色彩,表情语气的不同,更加加剧了语音识别的困难。因此,只有建立良好的语音处理机制,才能更加接近人类完善的听觉能力。也就是,期待一种优化的语音识别方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种语音识别方法、语音识别装置和电子设备。所述语音识别方法将基于支持向量机的分类器和隐马尔可夫模型应用于中文语音识别的应用中,以提高语音识别的准确度。
根据本申请的一方面,提供了一种语音识别方法,其包括:
训练阶段,包括:
获取训练数据,所述训练数据包括连续语音和对应于所述连续语音的真实语音识别结果;
对所述训练数据中的连续语音进行语音分割,以获得由多个语音段组成的语音段序列;
提取所述语音段序列中每个语音段的语音特征;
将所述语音段序列中每个语音段的语音特征输入基于支持向量机的分类器以获得对应于每个所述语音段的分类标签,从而得到带有分类标签的语音段序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科聚信信息技术(北京)有限公司,未经中科聚信信息技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111077163.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:测定装置、判定方法以及记录介质
- 下一篇:超声图像显示装置及其控制程序