[发明专利]一种训练语料的生成方法、装置、设备及存储介质有效
| 申请号: | 201910179796.4 | 申请日: | 2019-03-11 |
| 公开(公告)号: | CN109949797B | 公开(公告)日: | 2021-11-12 |
| 发明(设计)人: | 丁世强;黄际洲;蒋忠伟;马文韬 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 训练 语料 生成 方法 装置 设备 存储 介质 | ||
本发明公开了一种训练语料的生成方法、装置、设备及存储介质。其中,该方法包括:在与目标应用程序关联的用户行为日志中,挖掘多条待标注的语料数据,语料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志,以及与第一行为日志时间关联,且属于同一用户的第二行为日志;根据各待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料。本发明实施例可以基于用户行为,自动地、有针对性地挖掘语音识别的正反馈语料和负反馈语料提供给后续的语音识别模型训练,有效提升语音识别的效果,可以大大缩短语音识别模型的迭代周期,节省大量的资源。
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种训练语料的生成方法、装置、设备及存储介质。
背景技术
目前地图类应用程序的语音识别模型的优化主要需要以下三步:随机抽取几万小时的音频及其对应场景信息;花费巨额金钱和时间进行人工标注,产出训练语料;基于新的训练语料重新训练语音识别模型,并且调优。
发明人在实现本发明的过程中,发现由于现有技术中,语音识别的训练语料主要来源于人工标注的随机音频,导致两个主要问题:由于是人工标注,导致语音识别模型迭代周期过长,并且资源耗费比较严重;由于是随机抽取的音频,导致有大量的无效标注(增加识别错误的语料比增加识别正确的语料更加有价值)。
发明内容
本发明实施例提供一种训练语料的生成方法、装置、设备及存储介质,以实现基于用户行为,自动地、有针对性地挖掘语音识别的训练语料。
第一方面,本发明实施例提供了一种训练语料的生成方法,包括:
在与目标应用程序关联的用户行为日志中,挖掘多条待标注的语料数据,语料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志,以及与第一行为日志时间关联,且属于同一用户的第二行为日志;
根据各待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料。
第二方面,本发明实施例还提供了一种训练语料的生成装置,包括:
语料数据挖掘模块,用于在与目标应用程序关联的用户行为日志中,挖掘多条待标注的语料数据,所述语料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志,以及与所述第一行为日志时间关联,且属于同一用户的第二行为日志;
语料判定模块,用于根据各所述待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各所述语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例所述的训练语料的生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明实施例所述的训练语料的生成方法。
本发明实施例的技术方案,通过在与目标应用程序关联的用户行为日志中,挖掘多条待标注的语料数据,语料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志,以及与第一行为日志时间关联,且属于同一用户的第二行为日志,然后根据各待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料,解决了现有技术中,语音识别的训练语料主要来源于人工标注的随机音频,导致语音识别模型迭代周期过长,资源耗费比较严重,有大量的无效标注的问题,可以基于用户行为,自动地、有针对性地挖掘语音识别的正反馈语料和负反馈语料,提供给后续的语音识别模型训练,有效提升语音识别的效果,可以大大缩短语音识别模型的迭代周期,节省大量的资源。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910179796.4/2.html,转载请声明来源钻瓜专利网。





