[发明专利]语音识别网络的可视化生成方法、系统及平台有效
| 申请号: | 201910719492.2 | 申请日: | 2019-08-05 |
| 公开(公告)号: | CN110427459B | 公开(公告)日: | 2021-09-17 |
| 发明(设计)人: | 王雪志 | 申请(专利权)人: | 思必驰科技股份有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/9535;G06F40/30;G06K9/62;G10L15/06;G10L15/28 |
| 代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
| 地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 网络 可视化 生成 方法 系统 平台 | ||
本发明公开语音识别网络的可视化生成方法,该方法包括:通过人机交互界面接收关键词。从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬虫及对应多个预设Web爬取页面。获取通用语料集。获取特定语料集。训练通用语料集获取通用语言模型及特定语言模型。将通用语言模型的WFST语音识别网络及特定语言模型的WFST语音识别网络并联后,结合声学模型以及发音字典,通过组合、确定化、最小化操作合成WFST语音识别网络。通过在同一平台上配置系统,加快语言模型的训练速度,缩短产品周期,缩短人力消耗,节约人力成本。同时通过通用语言模型网络及特定语言模型的合并,提高语言识别的准确性及效率。
技术领域
本发明属于语音识别的技术领域,尤其涉及语音识别网络的可视化生成方法、系统及平台。
背景技术
目前市场上相关可视化语言模型制作系统很少,大部分的语言模型制作都是在命令行层面进行定制的。语言模型的制作在语音识别方面举足轻重,各个语音公司都有自己的团队负责模型,但是大部分都是在命令行下进行制作。现有技术中,命令行下进行模型的定制流程不可控,版本不好管理,风险不可控制,流程不够简化。导致上述缺陷的原因在于,在命令行下用各种脚本人工输入命令训练模型导致的。人工在命令行下的训练,缺少持续有效的监督和复查,导致流程不可控,风险不可控。命令行低效的操作不能满足多任务的语言模型训练,流程复杂。同时,在现有技术中,模型制作中的可视化差,不便于模型的制作。
针对上述问题,目前市场上解决这些问题的方法有如下:语言模型训练标准流程的制定、脚本规范化管理、数据的统一管理、开发更多有效脚本,使各个分步骤自动化、安排多人进行交叉复盘等方式。上面提到的这些解决方法并未解决进行融合的问题且未从整体上用一个完整的系统去解决问题。
由此可知,现有技术中语音识别时所使用的可视化的语音识别网络,在生成过程中各定制流程不可控,且版本不便于管理,不能满足多任务的语言模型训练。同时,模型制作中的可视性差,不便于多个使用者的同时编辑,从而降低了语音识别模型生成效率及准确性。
发明内容
本发明实施方式提供语言模型的生成方法及单元,用于至少解决上述技术问题之一。
第一方面,提供一种语音识别网络的可视化生成方法,该方法能够运行在Web端,方法包括:
步骤S101,通过人机交互界面接收关键词。从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬取词及对应多个预设Web爬取页面。
步骤S102,根据当前领域字段获取对应的预设爬取词,根据预设爬取词在当前领域字段对应的多个预设Web爬取页面上爬获第一爬取结果,根据第一爬取结果获取通用语料集。
步骤S103,将关键词设为当前爬虫爬取词,根据当前爬虫爬取词在Web端从设定搜索引擎的返回页面中爬获第二爬取结果,根据第二爬取结果获取特定语料集。
步骤S104,基于通用语料集进行训练生成arpa格式的通用语言模型,基于特定语料集进行训练生成arpa格式的特定语言模型。通用语言模型的文件信息及特定语言模型的文件信息中包括具有标识作用的版本号。
步骤S105,将通用语言模型及特定语言模型合并,结合声学模型以及发音字典数据后合成WFST语音识别网络。
在本发明一种优选的实施方式中,步骤S105后还包括,步骤S106,根据多个配置的接口的设定测试集分别测试WFST语音识别网络,获取多个配置的接口的测试识别数据,显示多个配置的接口的测试识别数据,测试识别数据中包括对应的配置的接口的标识信息。
在本发明一种优选的实施方式中,步骤S102中还包括:步骤S1021,通过评分语言模型对通用语料集中的词条打分,获取词条对应的评分,若词条的评分大于设定阀值,则保留词条,若否,则从通用语料集中删除词条。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910719492.2/2.html,转载请声明来源钻瓜专利网。





