[发明专利]一种音频识别结果的生成方法及装置在审
申请号: | 201811476124.1 | 申请日: | 2018-12-04 |
公开(公告)号: | CN109326292A | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 韩亮;韩青;叶锦宇 | 申请(专利权)人: | 北京九狐时代智能科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王艳芬 |
地址: | 100000 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本数据 音频识别 目标音频 输入区域 音频信息 自动识别 申请 页面 展示 | ||
1.一种音频识别结果的生成方法,其特征在于,包括:
获取对目标音频信息进行自动识别所生成的第一文本数据;所述目标音频信息是完整音频信息中的一部分;
将第二文本数据的输入区域、所述第一文本数据和所述目标音频信息的标识在同一个展示页面进行展示;
根据用户在所述第二文本数据的输入区域所输入的第二文本数据,确定所述目标音频信息的实际识别结果。
2.根据权利要求1所述的方法,其特征在于,包括:所述获取对目标音频信息进行自动识别所生成的第一文本数据,包括:
获取完整音频信息;
按照预设的截断规则,对所述完整音频信息进行分段,以生成多个发音单位;
选择所述多个发音单位中指定的一个或多个发音单位作为目标音频信息;
对所述目标音频信息进行语音自动识别,以得到第一文本数据。
3.根据权利要求2所述的方法,其特征在于,所述选择所述多个发音单位中指定的一个或多个发音单位作为目标音频信息,包括:
确定所述目标音频信息中每个发音单位的发音特征;
根据所述发音单位的发音特征,确定所述每个发音单位所对应的发言方;
将至少一个所述发言方所对应的发音单位组成目标音频信息。
4.根据权利要求3所述的方法,其特征在于,所述发音特征包括以下的任意一种或多种:所述发言方的声音的音色、音量、音调以及语速。
5.根据权利要求3所述的方法,其特征在于,所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示,包括:
将多个所述目标音频信息的标识按照音频的时间顺序在同一个展示页面进行展示。
6.根据权利要求1所述的方法,其特征在于,所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示,包括:
将不可修改的所述第一文本数据与第二文本数据的输入区域在同一个展示页面的不同展示区域内展示。
7.根据权利要求1所述的方法,其特征在于,所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示,包括:
将所述第一文本数据在第二文本数据的输入区域内,以可编辑的形式进行展示。
8.一种音频识别结果的生成装置,其特征在于,包括:获取模块、展示模块和确定模块;
所述获取模块,用于获取对目标音频信息进行自动识别所生成的第一文本数据;所述目标音频信息是完整音频信息中的一部分;
所述展示模块,用于将第二文本数据的输入区域、所述第一文本数据和所述目标音频信息的标识在同一个展示页面进行展示;
所述确定模块,用于根据用户在所述第二文本数据的输入区域所输入的第二文本数据,确定所述目标音频信息的实际识别结果。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的音频识别结果的生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的音频识别结果的生成方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京九狐时代智能科技有限公司,未经北京九狐时代智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811476124.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电视模式控制方法、电视及存储介质
- 下一篇:一种文本相关的声纹密钥生成方法