[发明专利]语言模型训练系统、语音识别系统及相应方法有效
申请号: | 201210533887.1 | 申请日: | 2012-12-11 |
公开(公告)号: | CN103871402B | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 曹立新;万广鲁 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙)11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了语言模型训练系统、语音识别系统及相应方法,涉及语音识别领域,用以解决现有语言模型训练技术及语音识别技术的识别准确率不够高的问题。语言模型训练系统包括第一收集单元用于收集语音搜索的标注结果日志;第一训练单元用于对标注结果日志进行训练,并生成标注结果语言模型;第一语言模型库用于存储所述标注结果语言模型;第二收集单元用于收集文本搜索的检索日志;第二训练单元用于对检索日志进行训练,并生成检索日志语言模型;第二语言模型库用于存储所述检索日志语言模型;结合单元用于通过插值法,将标注结果语言模型以及检索日志语言模型相结合;第三语言模型库用于存储结合后得到的语言模型。 | ||
搜索关键词: | 语言 模型 训练 系统 语音 识别 相应 方法 | ||
【主权项】:
一种语言模型训练系统,其特征在于,包括:第一收集单元,用于收集语音搜索的标注结果日志;第一日志预处理单元,用于预处理所述第一收集单元收集的标注结果日志,以及将预处理后的标注结果日志交由第一训练单元进行训练;第一训练单元,用于对标注结果日志进行训练,并生成标注结果语言模型;第一语言模型库,用于存储所述标注结果语言模型;第二收集单元,用于收集文本搜索的检索日志;第二日志预处理单元,用于预处理第二收集单元收集的检索日志,以及将预处理后的检索日志交由第二训练单元进行训练;第二训练单元,用于对检索日志进行训练,并生成检索日志语言模型;第二语言模型库,用于存储所述检索日志语言模型;结合单元,用于将第一语言模型库中存储的所述标注结果语言模型以及第二语言模型库中存储的所述检索日志语言模型相结合;第三语言模型库,用于存储结合后得到的语言模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210533887.1/,转载请声明来源钻瓜专利网。