[发明专利]音频处理方法、装置、电子设备及介质在审
申请号: | 202011085165.5 | 申请日: | 2020-10-12 |
公开(公告)号: | CN114420125A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 张甲盛;王海忠 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/04 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁;张海秀 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 电子设备 介质 | ||
本申请实施例提供了一种音频处理方法、装置、电子设备及介质,涉及云技术及人工智能技术领域。该方法包括:获取待处理音频;确定所述待处理音频的至少一个初始分段时间点;确定所述待处理音频中各所述初始分段时间点各自对应的至少一个静音片段;根据各所述初始分段时间点各自对应的至少一个静音片段,确定各所述初始分段时间点对应的目标分段时间点;根据各所述目标分段时间点,得到所述待处理音频的各音频片段;对各所述音频片段进行语音识别,并基于各所述音频片段的语音识别结果得到对应于目标语言的文本。本申请实施例提高了语音识别结果的准确性。
技术领域
本申请涉及云技术及人工智能技术领域,具体而言,本申请涉及一种音频处理方法、装置、电子设备及介质。
背景技术
大多数的媒体信息是录制得到的,需要将媒体信息中的音频信息处理为文本信息,用于形成记录文件或者制作字幕等。现在技术中在对媒体信息中的音频信息进行处理时,先将媒体信息中的音频信息分为均衡的几段,再对各段音频信息分别进行处理,会导致处理得到的内容不准确的问题。
发明内容
本申请提实施例供了一种能够有效提高音频识别准确性的音频处理方法、装置、电子设备及介质。
第一方面,本申请实施例提供了一种音频处理方法,该方法包括:
获取待处理音频;
确定待处理音频的至少一个初始分段时间点;
确定待处理音频中各所述初始分段时间点各自对应的至少一个静音片段;
根据各初始分段时间点各自对应的至少一个静音片段,确定各初始分段时间点对应的目标分段时间点;
根据各目标分段时间点,得到待处理音频的各音频片段;
对各音频片段进行语音识别,并基于各音频片段的语音识别结果得到对应于目标语言的文本。
第二方面,本申请实施例提供了一种音频处理装置,该装置包括:
音频获取模块,用于获取待处理音频;
分段点确定模块,用于确定待处理音频的至少一个初始分段时间点、确定待处理音频中各初始分段时间点各自对应的至少一个静音片段、以及根据各初始分段时间点各自对应的至少一个静音片段,确定各初始分段时间点对应的目标分段时间点;
音频分段模块,用于根据各目标分段时间点,得到待处理音频的各音频片段;
音频识别模块,用于对各音频片段进行语音识别,并基于各音频片段的语音识别结果得到对应于目标语言的文本。
本申请实施例的另一种可能实现方式,音频识别模块具体用于:
通过多线程并行对各音频片段进行语音识别,并基于各音频片段的语音识别结果得到对应于目标语言的文本。
本申请实施例的另一种可能实现方式,对于任一初始分段时间点,初始分段时间点对应的至少一个静音片段包括待处理音频中初始分段时间点相邻的设定数量的静音片段,或者待处理音频中以初始分段时间点为基准时间点的预设时长内的静音片段。
本申请实施例的另一种可能实现方式,分段点确定模块在根据各初始分段时间点各自对应的至少一个静音片段,确定各初始分段时间点对应的目标分段时间点时,具体用于:
对于任一初始分段时间点,根据初始分段时间点对应的至少一个静音片段中时长最长的静音片段,确定初始分段时间点对应的目标分段时间点。
本申请实施例的另一种可能实现方式,分段点确定模块在确定待处理音频的至少一个初始分段时间点时,具体用于:
根据以下信息中的至少一项,确定待处理音频的至少一个初始分段时间点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011085165.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:太阳能电池的制备方法及太阳能电池
- 下一篇:一种设备推荐方法及电子设备