[发明专利]一种用于语音识别的语音数据自动化标注方法和系统在审
| 申请号: | 202010836275.4 | 申请日: | 2020-08-19 |
| 公开(公告)号: | CN111933120A | 公开(公告)日: | 2020-11-13 |
| 发明(设计)人: | 于谦;孙涛 | 申请(专利权)人: | 潍坊医学院 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G10L15/26;G10L15/30 |
| 代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
| 地址: | 261053 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 语音 识别 数据 自动化 标注 方法 系统 | ||
本发明公开了一种用于语音识别的语音数据自动化标注方法和系统,具体涉及语音识别领域,包括静音检测模块、音量筛选模块、长度筛选模块、语音识别模块、识别结果判断模块和人工校对模块;所述静音检测模块通过静音检测算法将每个语音拆分成多个语音片段;所述音量筛选模块通过音量的阈值将符合要求的语音筛选出来,将不符合要求的语音去除。本发明通过一种多个模块的组合系统,通过语音预处理→语音识别,又采用公有云方式→识别结果判断人工校对→构建语音数据标注,经过上述过程多次迭代后,新的语料库不断训练,得到较高质量的语料数据,减少人工,提高语音数据标注质量,解决人工标注周期长、成本高以及效率低的问题。
技术领域
本发明涉及语音识别技术领域,更具体地说,本发明涉及一种用于语音识别的语音数据自动化标注方法和系统。
背景技术
语音数据的标注,语音识别性能和鲁棒性很大程度上取决于识别模型建模过程中是否有精确标注的语料数据,传统的语音数据标注一般由人工来完成,这就消耗了大量的人力物力。VAD(Voice Activity Detection),语音活性检测,是一项用于语音处理的技术,目的是检测语音信号是否存在,VAD技术主要用于语音编码和语音识别。
随着各种智能终端的普及,以及人工智能技术的突破,语音作为人机交互的重要环节,广泛应用各种智能终端上,越来越多的用户习惯对着机器说话,根据应用需求使用语音输入信息,得到机器的响应,如用户发短信或使用聊天系统与其他人聊天时,使用语音输入需要发送的内容,利用语音识别技术将语音识别成文本,用户对识别文本进行确认后,发送出去;当然用户也可以使用语音完成其他应用需求,如语音搜索;用户在使用智能终端的过程中产生了海量语音数据。如何高效的对海量数据进行标注,得到语音数据的正确文本数据具有重要意见,利用标注后的语音数据及正确文本数据可以优化声学模型和语言模型,提升用户体验。
相关技术中,语音数据通过采用人工方式进行标注。但是,随着智能终端的广泛采用,获取到的语音数据越来越多,如果单纯依靠人工标注语音数据,远远不能满足海量语音数据标注的要求,并且人工标注的成本较高,标注周期较长,效率较低,显然不能满足应用的需求。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供一种用于语音识别的语音数据自动化标注方法和系统,本发明所要解决的技术问题是:语音数据人工标注周期长、成本高以及效率低的问题。
为实现上述目的,本发明提供如下技术方案:一种用于语音识别的语音数据自动化标注系统,包括静音检测模块、音量筛选模块、长度筛选模块、语音识别模块、识别结果判断模块和人工校对模块;
所述静音检测模块通过静音检测算法将每个语音拆分成多个语音片段;
所述音量筛选模块通过音量的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
所述长度筛选模块通过语音时长的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
所述语音识别模块通过语音识别引擎将语音识别为语音对应的文字,后期将加入新形成的语料库;
所述识别结果判断模块通过识别出文字的情况筛选符合要求的语音,将识别出文字不通畅,不准确的语音去除;
所述人工校对模块负责将符合要求的语音进行人工校对,并对符合要求的语音来进行标注,形成新的语料库。
在一个优选地实施方式中,所述语音识别模块运用百度和科大讯飞语料库,使用百度和讯飞的接口。
在一个优选地实施方式中,所述人工校对模块将语料库加入到语音识别模块中,与百度和科大讯飞语料库一起使用。
本发明还包括该用于语音识别的语音数据自动化标注系统的标注方法,具体标注步骤如下:
S1、语音预处理:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于潍坊医学院,未经潍坊医学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010836275.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高减水保坍型聚羧酸减水剂及其制备方法和应用
- 下一篇:一种冲孔落料模具
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





