[发明专利]语音和声音的识别方法发明在审

申请号：	201610273827.9	申请日：	2016-04-29
公开（公告）号：	CN107342074A	公开（公告）日：	2017-11-10
发明（设计）人：	王荣	申请（专利权）人：	王荣
主分类号：	G10L15/02	分类号：	G10L15/02
代理公司：	暂无信息	代理人：	暂无信息
地址：	100000 北京市鼓***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音声音识别方法发明
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于语音识别和声音识别领域，具体涉及一种实现语音和声音识别的方法。

背景技术

语音识别是人工智能的重要组成部分，有着广泛的用途，但目前的语音识别在有噪音的环境中识别能力较差。《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS，VOL.10，NO.5，JUNE 1992》杂志的《An Objective Measure for Predicting Subjective Quality of Speech Coders》一文(以下称文献1)介绍了一种比较两个语音之间差异的方法，但如果用于语音识别，这种方法效果很不理想。另外，这种方法需要两个语音是完全对准的，但现实中，语音会在任何时间开始和结束，几乎不可能是事先对准的。因此，本发明提出解决方法，试图解决这些问题。

发明内容

一种实现语音识别的方法，方法是把纯语音A转换为表示所述纯语音A在巴克上的响度的二维数组F，把待识别的声音G转换为表示所述待识别的声音G在巴克上的响度的二维数组H，其特征是：

在比较所述数组F和所述数组H时，忽略所述数组F中响度较小的元素以及所述数组H中与所述数组F中响度较小的元素对应的元素。

一种实现语音识别的方法，方法是把纯语音A2转换为表示所述纯语音A2在巴克上的响度的二维数组F2，把待识别的声音G2转换为表示所述待识别的声音G2在巴克上的响度的二维数组H2，其特征是：

在计算所述数组F2的元素F2[x][y]和所述数组H2中对应的元素H2[x][y]的距离时，令计算的结果最大不超过所述元素F2[x][y]的值。

优选的，设待识别的声音G3是和纯语音A3长度不同的声音，为计算所述待识别的声音G3是否包含所述纯语音A3，其特征是：

逐帧从所述待识别的声音G3中提取和所述纯语音A3长度相同的一段声音G4，再比较所述声音G4和所述纯语音A3。

优选的，把所述纯语音A和所述纯语音A2乘以一个比例因子，再和所述待识别的声音G和所述待识别的声音G2进行比较。

与现有技术相比，本发明的优势在于：对有噪音的环境以及发音较短的字或词有较好的识别效果。

具体实施方式

实施例1：

在语音，以及更宽泛而言的声音中，功率在频率上的分布并不是完全相等的，并且功率在频率上的分布会随着时间变化。正是这种频率的分布，以及它们的变化，使人可以分辨出各种声音。假设有一个200赫兹和一个2000赫兹，强度不变的正弦音同时出现，并且200赫兹正弦音的响度是2000赫兹的2倍，在这种情况下，人类可以轻易听出声音中有一个2000赫兹的声音。但如果把文献1的方法和公式直接用于声音的识别，以及计算两个声音的距离，会认为这个声音和2000赫兹相距甚远，因而识别不出2000赫兹这个声音。但是如果先给人类听一下2000赫兹的正弦波纯音，他会发现，这个声音在200Hz以及其它频率上的响度为零，因而会忽略200赫兹的声音，只考虑2000赫兹的这个声音，因而依然能听出2000赫兹这个声音。

另外，在有噪音的环境中，响度太小的声音太容易受到干扰，因此在有噪音的环境中进行语音识别时，需要忽略纯语音中响度太小的声音。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于王荣，未经王荣许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610273827.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种可控音乐律动LED音乐盒
下一篇：一种基于因子分析的说话人分段聚类方法及系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音和声音的识别方法发明在审

专利文献下载