[发明专利]语音和声音的识别方法发明在审
| 申请号: | 201610273827.9 | 申请日: | 2016-04-29 |
| 公开(公告)号: | CN107342074A | 公开(公告)日: | 2017-11-10 |
| 发明(设计)人: | 王荣 | 申请(专利权)人: | 王荣 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100000 北京市鼓*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 声音 识别 方法 发明 | ||
技术领域
本发明属于语音识别和声音识别领域,具体涉及一种实现语音和声音识别的方法。
背景技术
语音识别是人工智能的重要组成部分,有着广泛的用途,但目前的语音识别在有噪音的环境中识别能力较差。《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS,VOL.10,NO.5,JUNE 1992》杂志的《An Objective Measure for Predicting Subjective Quality of Speech Coders》一文(以下称文献1)介绍了一种比较两个语音之间差异的方法,但如果用于语音识别,这种方法效果很不理想。另外,这种方法需要两个语音是完全对准的,但现实中,语音会在任何时间开始和结束,几乎不可能是事先对准的。因此,本发明提出解决方法,试图解决这些问题。
发明内容
一种实现语音识别的方法,方法是把纯语音A转换为表示所述纯语音A在巴克上的响度的二维数组F,把待识别的声音G转换为表示所述待识别的声音G在巴克上的响度的二维数组H,其特征是:
在比较所述数组F和所述数组H时,忽略所述数组F中响度较小的元素以及所述数组H中与所述数组F中响度较小的元素对应的元素。
一种实现语音识别的方法,方法是把纯语音A2转换为表示所述纯语音A2在巴克上的响度的二维数组F2,把待识别的声音G2转换为表示所述待识别的声音G2在巴克上的响度的二维数组H2,其特征是:
在计算所述数组F2的元素F2[x][y]和所述数组H2中对应的元素H2[x][y]的距离时,令计算的结果最大不超过所述元素F2[x][y]的值。
优选的,设待识别的声音G3是和纯语音A3长度不同的声音,为计算所述待识别的声音G3是否包含所述纯语音A3,其特征是:
逐帧从所述待识别的声音G3中提取和所述纯语音A3长度相同的一段声音G4,再比较所述声音G4和所述纯语音A3。
优选的,把所述纯语音A和所述纯语音A2乘以一个比例因子,再和所述待识别的声音G和所述待识别的声音G2进行比较。
与现有技术相比,本发明的优势在于:对有噪音的环境以及发音较短的字或词有较好的识别效果。
具体实施方式
实施例1:
在语音,以及更宽泛而言的声音中,功率在频率上的分布并不是完全相等的,并且功率在频率上的分布会随着时间变化。正是这种频率的分布,以及它们的变化,使人可以分辨出各种声音。假设有一个200赫兹和一个2000赫兹,强度不变的正弦音同时出现,并且200赫兹正弦音的响度是2000赫兹的2倍,在这种情况下,人类可以轻易听出声音中有一个2000赫兹的声音。但如果把文献1的方法和公式直接用于声音的识别,以及计算两个声音的距离,会认为这个声音和2000赫兹相距甚远,因而识别不出2000赫兹这个声音。但是如果先给人类听一下2000赫兹的正弦波纯音,他会发现,这个声音在200Hz以及其它频率上的响度为零,因而会忽略200赫兹的声音,只考虑2000赫兹的这个声音,因而依然能听出2000赫兹这个声音。
另外,在有噪音的环境中,响度太小的声音太容易受到干扰,因此在有噪音的环境中进行语音识别时,需要忽略纯语音中响度太小的声音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王荣,未经王荣许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610273827.9/2.html,转载请声明来源钻瓜专利网。





