[发明专利]一种音频识别结果的生成方法及装置在审

申请号：	201811476124.1	申请日：	2018-12-04
公开（公告）号：	CN109326292A	公开（公告）日：	2019-02-12
发明（设计）人：	韩亮;韩青;叶锦宇	申请（专利权）人：	北京九狐时代智能科技有限公司
主分类号：	G10L15/26	分类号：	G10L15/26
代理公司：	北京超凡志成知识产权代理事务所(普通合伙) 11371	代理人：	王艳芬
地址：	100000 北京市朝阳区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本数据音频识别目标音频输入区域音频信息自动识别申请页面展示
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音频识别结果的生成方法，其特征在于，包括：

获取对目标音频信息进行自动识别所生成的第一文本数据；所述目标音频信息是完整音频信息中的一部分；

将第二文本数据的输入区域、所述第一文本数据和所述目标音频信息的标识在同一个展示页面进行展示；

根据用户在所述第二文本数据的输入区域所输入的第二文本数据，确定所述目标音频信息的实际识别结果。

2.根据权利要求1所述的方法，其特征在于，包括：所述获取对目标音频信息进行自动识别所生成的第一文本数据，包括：

获取完整音频信息；

按照预设的截断规则，对所述完整音频信息进行分段，以生成多个发音单位；

选择所述多个发音单位中指定的一个或多个发音单位作为目标音频信息；

对所述目标音频信息进行语音自动识别，以得到第一文本数据。

3.根据权利要求2所述的方法，其特征在于，所述选择所述多个发音单位中指定的一个或多个发音单位作为目标音频信息，包括：

确定所述目标音频信息中每个发音单位的发音特征；

根据所述发音单位的发音特征，确定所述每个发音单位所对应的发言方；

将至少一个所述发言方所对应的发音单位组成目标音频信息。

4.根据权利要求3所述的方法，其特征在于，所述发音特征包括以下的任意一种或多种：所述发言方的声音的音色、音量、音调以及语速。

5.根据权利要求3所述的方法，其特征在于，所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示，包括：

将多个所述目标音频信息的标识按照音频的时间顺序在同一个展示页面进行展示。

6.根据权利要求1所述的方法，其特征在于，所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示，包括：

将不可修改的所述第一文本数据与第二文本数据的输入区域在同一个展示页面的不同展示区域内展示。

7.根据权利要求1所述的方法，其特征在于，所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示，包括：

将所述第一文本数据在第二文本数据的输入区域内，以可编辑的形式进行展示。

8.一种音频识别结果的生成装置，其特征在于，包括：获取模块、展示模块和确定模块；

所述获取模块，用于获取对目标音频信息进行自动识别所生成的第一文本数据；所述目标音频信息是完整音频信息中的一部分；

所述展示模块，用于将第二文本数据的输入区域、所述第一文本数据和所述目标音频信息的标识在同一个展示页面进行展示；

所述确定模块，用于根据用户在所述第二文本数据的输入区域所输入的第二文本数据，确定所述目标音频信息的实际识别结果。

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的音频识别结果的生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的音频识别结果的生成方法的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京九狐时代智能科技有限公司，未经北京九狐时代智能科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811476124.1/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载