[发明专利]一种文字音频推送方法有效
申请号: | 201910188890.6 | 申请日: | 2019-03-13 |
公开(公告)号: | CN109887493B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 虞焰兴 | 申请(专利权)人: | 安徽声讯信息技术有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/07;G10L15/26;G10L15/30;G10L19/00 |
代理公司: | 合肥律众知识产权代理有限公司 34147 | 代理人: | 冯慧云 |
地址: | 230000 安徽省合肥市高新区习友路33*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文字 音频 推送 方法 | ||
本发明公开了一种文字音频推送方法,属于音频处理技术领域,包括S1.声音处理;S2.分段识别;S3.音频记忆;S4.根据概率识别音频;S5.音频文字推送。通过音频识别设备先将采集到的音频处理成声音波,再根据设备设置的前端点和后端点作为音频识别区间,采集到的音频被分段识别,每识别一段就推送给用户,这样用户在说话时每说完一句在停顿的间隙中,该段音频被识别成文字后推送出去,因此用户接收到的音频文字被分为一段段,每段发送的音频文字占用容量较小,即使网速较慢也可以快速的推送给用户,而且分段的文字便于用户观看。
技术领域
本发明涉及音频处理技术领域,特别涉及一种文字音频推送方法。
背景技术
自动语音识别技术近年来发展迅速,使人们用语言与计算机进行通信与交流已成为可能。与键盘和鼠标等传统的人机交互方式相比,语音提供了一种更为自然的人机交互界面,音频文字自动提取是以语音识别系统的核心模块为基础,对参考文本和对应语音进行强制对准的过程,其目的在于将音频文字转换为文本文字。作为语音识别领域中一种常见的预处理技术,音频文字自动提取广泛应用在模型训练、多媒体检索、广播电视媒体、计算机辅助语言教学等方面,此外,还可为现场直播的新闻、演讲、会议等生成字幕;为语言教学、游戏娱乐、电影制作等生成多媒体库;为歌曲制作同步的歌词显示等。
传统的自动语音识别技术在使用时仍存在一定的缺陷,传统的文字音频识别不具备分段识别和推送的功能,通常一大段一起识别推送,文字音频内容较多时占用的容量较大,遇到网络延时较高的时候,较大容量的文字音频推送给用户速率较慢,导致出现卡顿的情况发生,而且传统的语音识别采用人为设定音频的识别区间,该识别区间可以适应绝大部分人,由于每个人说话的语气和音调不同,因此极少数人说话的声音在识别时容易出现错误,准确率不高。
发明内容
本发明的目的就在于为了解决上述语音识别技术不具备分段识别推送的功能,导致网络延时较高时推送文字速率较慢以及传统的语音识别技术识别准确率低的问题而提供一种文字音频推送方法,具有类似心跳一样的分段识别推送音频和文字,音频识别具有记忆功能,识别准确率高的优点。
本发明通过以下技术方案来实现上述目的,一种文字音频推送方法,包括以下步骤:
S1.声音处理:由音频识别设备采集声音,将采集到的声音音频数据通过语音编码技术进行处理,生成声音波形,该波形的X轴为时间轴,单位为毫秒,Y轴为音量轴,单位为分贝;
S2.分段识别:设置音频识别设备在前端点到后端点这一区间内识别文字,前端点和后端点均为声音产生到结束的时间间隔,前端点设定为100毫秒,后端点设定为500毫秒,当声音从产生到有效这段时间在100毫秒内时,音频设备开始识别声音,当声音从有效到结束的时间间隔到达500毫秒时,音频设备停止识别声音;
S3.音频记忆:音频识别设备识别一次声音后记录声音从开始到结束的频率,通过分布函数计算出音频的平衡值,多次识别声音后将平衡值出现的不同概率以高到低的顺序依次保存到内部处理器中;
S4.根据概率识别音频:由于每个人说话的音色不同,每个音频段采用的前端点和后端点不同,音频识别设备识别一段音频时,先以出现概率最高的平衡值的音频段作为识别依据,如果该音频为新的音频段时,重复上述S3将平衡值记忆,如果为S3记忆的音频段,直接选取该音频段的前端点和后端点;
S5.音频文字推送:音频识别设备根据S1-S4步骤识别的文字通过内部的推送模块推送给用户。
优选的,所述音频识别设备采集声音时通过外接的麦克风或者录音设备采集到用户的声音。
优选的,所述S2中开始声音为有效声音,该有效声音为人耳可听到的声音,声音频率在20-20000Hz之间,结束声音为无效声音,该无效声音为人耳无法听到的声音,声音频率在0-20Hz之间。
优选的,所述S3的分布函数计算平衡值的公式为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽声讯信息技术有限公司,未经安徽声讯信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910188890.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据处理方法、装置和电子设备
- 下一篇:重构语音信号的方法和装置