[发明专利]规则语言模型的生成方法及装置在审
| 申请号: | 202011605389.4 | 申请日: | 2020-12-30 |
| 公开(公告)号: | CN112820280A | 公开(公告)日: | 2021-05-18 |
| 发明(设计)人: | 陈孝良;冯大航;焦伟;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
| 主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/06;G10L15/16;G06F40/30;G06K9/62;G06N3/02;G10L15/22;G06F40/211;G06F40/284 |
| 代理公司: | 北京竹辰知识产权代理事务所(普通合伙) 11706 | 代理人: | 聂鹏 |
| 地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 规则 语言 模型 生成 方法 装置 | ||
本公开实施例公开了一种规则语言模型的生成方法、装置、电子设备和计算机可读存储介质。其中该规则语言模型的生成方法包括:获取原始规则语言模型并将所述原始规则语言模型转换成加权有限状态转换器结构的第一图;获取统计语言模型并将所述统计语言模型转换成加权有限状态转换器结构的第二图;将所述第一图和所述第二图合并得到规则语言模型的加权有限状态转换器结构的第三图;其中所述第三图中的边的权重根据所述第一图和所述第二图中的对应边的权重得到。通过上述方法中第一图和第二图的合并得到对应规则语言模型的第三图,使得规则语言模型中的边的权重发生变化,解决了现有技术中语音识别识别结果会偏向于规则语言模型技术问题。
技术领域
本公开涉及语音识别领域,尤其涉及一种规则语言模型的生成方法、装置、电子设备及计算机可读存储介质。
背景技术
语音识别的市场越来越大,各种实际要求也各不相同。一般的识别场景下,所用的语言模型是基于统计的语言模型。但是在某些识别场景下,要识别的内容有很强的规律性或符合某种规则。例如,某些场景可能专门针对手机号识别,手机号的组成是有规律可循的,而且均是十一位。这样,就引入了基于规则的语言模型。而在同一个语音识别项目中,可能还会有闲聊模式,这种无规律可言,但确符合人类说话用语习惯的,就需要用到基于统计的语言模型。所以一套语音识别系统中,为了应对该项目所遇到的多种场景,会使用多个模型分支,这样就会出现基于统计的模型和基于规则的模型一起使用的情况
基于统计的语言模型中,词与词之间会统计出一个分数;基于规则的语言模型,只是表示一种句式规则,所以词与词之间是没有分数的,即分数全部为0。所以在实际解码中,识别结果会偏向于规则模型。结果就会遇到以下情况,即场景中出现一个句子,其上半部分符合规则模型的分布,但后半部分不符合规则模型的部分,那么识别过程中由于规则语言模型分数低,它在前半句将占据很大的优势,使得后半句虽然完全不符合规则,也会在规则语言模型里选择一条路径进行解码,导致识别不准确。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开实施例提供一种规则语言模型的生成方法,包括:
获取原始规则语言模型并将所述原始规则语言模型转换成加权有限状态转换器结构的第一图;
获取统计语言模型并将所述统计语言模型转换成加权有限状态转换器结构的第二图;
将所述第一图和所述第二图合并得到规则语言模型的加权有限状态转换器结构的第三图;其中所述第三图中的边的权重根据所述第一图和所述第二图中的对应边的权重得到。
进一步的,所述原始规则语言模型通过预设的规则生成;所述第一图中包括多个第一状态节点以及所述第一状态节点之间的第一边,所述第一边包括输入字符和输出字符以及所述第一边的第一权重;多个所述第一边所形成的路径表示所述原始规则语言模型所能识别的字符串。
进一步的,所述统计语言模型通过通用语料生成;所述第二图中包括多个第二状态节点以及所述第二状态节点之间的第二边,所述第二边包括输入字符和输出字符以及所述第二边的第二权重;多个所述第二边所形成的路径表示所述统计语言模型所能识别的字符串。
进一步的,所述将所述第一图和所述第二图合并得到规则语言模型的加权有限状态转换器结构的第三图,包括:
获取所述第一图的初始第一状态节点和所述第二图的初始第二状态节点以形成当前状态节点对;
获取离开所述当前状态节点对中的第一状态节点的所有第一边;
获取离开所述当前状态节点对中的第二状态节点的所有第二边;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011605389.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种报文转发方法及装置
- 下一篇:一种气体快速采样处理气室





