[发明专利]一种音频识别结果的生成方法及装置在审
申请号: | 201811476124.1 | 申请日: | 2018-12-04 |
公开(公告)号: | CN109326292A | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 韩亮;韩青;叶锦宇 | 申请(专利权)人: | 北京九狐时代智能科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王艳芬 |
地址: | 100000 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本数据 音频识别 目标音频 输入区域 音频信息 自动识别 申请 页面 展示 | ||
本申请提供了一种音频识别结果的生成方法及装置,其中,该方法包括一种音频识别结果的生成方法,包括:获取对目标音频信息进行自动识别所生成的第一文本数据;所述目标音频信息是完整音频信息中的一部分;将第二文本数据的输入区域、所述第一文本数据和所述目标音频信息的标识在同一个展示页面进行展示;根据用户在所述第二文本数据的输入区域所输入的第二文本数据,确定目标音频信息的实际识别结果。本申请实施例提供的一种音频识别结果的生成方法及装置,可以提高音频识别结果的生成效率。
技术领域
本申请涉及数据标注技术领域,尤其是涉及一种音频识别结果的生成方法及装置。
背景技术
随着声音采集技术和互联网技术的快速发展,每天都会产生大量的音频数据,需要人工服务平台对大量的音频数据进行处理。工作人员需要根据音频数据和音频识别设备识别的结果对音频数据进行文本形式的编辑。
目前对音频数据以文本形式进行编辑时,工作人员既要打开音频播放器播放音频数据,同时又要打开文本编辑页面在文本编辑页面内编辑音频识别数据,由于音频数据、音频识别设备识别的结果以及音频识别数据不能同时在一个页面内进行展示,工作人员需要在音频播放器和文本编辑页面之间反复切换,这种编辑音频识别数据的方法浪费时间,导致识别效率低。
发明内容
有鉴于此,本申请的目的在于提供一种音频识别结果的生成方法及装置,以提高音频识别结果的生成效率。
第一方面,本申请实施例提供了一种音频识别结果的生成方法,包括:
获取对目标音频信息进行自动识别所生成的第一文本数据;所述目标音频信息是完整音频信息中的一部分;
将第二文本数据的输入区域、所述第一文本数据和所述目标音频信息的标识在同一个展示页面进行展示;
根据用户在所述第二文本数据的输入区域所输入的第二文本数据,确定所述目标音频信息的实际识别结果。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,
所述获取对目标音频信息进行自动识别所生成的第一文本数据,包括:
获取完整音频信息;
按照预设的截断规则,对所述完整音频信息进行分段,以生成多个发音单位;
选择所述多个发音单位中指定的一个或多个发音单位作为目标音频信息;
对所述目标音频信息进行语音自动识别,以得到第一文本数据。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,
所述选择所述多个发音单位中指定的一个或多个发音单位作为目标音频信息,包括:
确定所述目标音频信息中每个发音单位的发音特征;
根据所述发音单位的发音特征,确定所述每个发音单位所对应的发言方;
将至少一个所述发言方所对应的发音单位组成目标音频信息。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,
所述发音特征包括以下的任意一种或多种:所述发言方的声音的音色、音量、音调以及语速。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,
所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示,包括:
将多个所述目标音频信息的标识按照音频的时间顺序在同一个展示页面进行展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京九狐时代智能科技有限公司,未经北京九狐时代智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811476124.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电视模式控制方法、电视及存储介质
- 下一篇:一种文本相关的声纹密钥生成方法