[发明专利]一种训练语料的生成方法、装置、设备及存储介质有效
| 申请号: | 201910179796.4 | 申请日: | 2019-03-11 |
| 公开(公告)号: | CN109949797B | 公开(公告)日: | 2021-11-12 |
| 发明(设计)人: | 丁世强;黄际洲;蒋忠伟;马文韬 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种训练语料的生成方法、装置、设备及存储介质。其中,该方法包括:在与目标应用程序关联的用户行为日志中,挖掘多条待标注的语料数据,语料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志,以及与第一行为日志时间关联,且属于同一用户的第二行为日志;根据各待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料。本发明实施例可以基于用户行为,自动地、有针对性地挖掘语音识别的正反馈语料和负反馈语料提供给后续的语音识别模型训练,有效提升语音识别的效果,可以大大缩短语音识别模型的迭代周期,节省大量的资源。 | ||
| 搜索关键词: | 一种 训练 语料 生成 方法 装置 设备 存储 介质 | ||
【主权项】:
1.一种训练语料的生成方法,其特征在于,包括:在与目标应用程序关联的用户行为日志中,挖掘多条待标注的语料数据,所述语料数据中包括:包含用户语音以及对应语音识别结果的第一行为日志,以及与所述第一行为日志时间关联,且属于同一用户的第二行为日志;根据各所述待标注的语料数据中,第一行为日志与第二行为日志之间的关联关系,将各所述语料数据中的用户语音以及对应的语音识别结果判定为正反馈语料或者负反馈语料。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910179796.4/,转载请声明来源钻瓜专利网。





