[发明专利]语音识别网络的可视化生成方法、系统及平台有效
| 申请号: | 201910719492.2 | 申请日: | 2019-08-05 |
| 公开(公告)号: | CN110427459B | 公开(公告)日: | 2021-09-17 |
| 发明(设计)人: | 王雪志 | 申请(专利权)人: | 思必驰科技股份有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/9535;G06F40/30;G06K9/62;G10L15/06;G10L15/28 |
| 代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
| 地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开语音识别网络的可视化生成方法,该方法包括:通过人机交互界面接收关键词。从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬虫及对应多个预设Web爬取页面。获取通用语料集。获取特定语料集。训练通用语料集获取通用语言模型及特定语言模型。将通用语言模型的WFST语音识别网络及特定语言模型的WFST语音识别网络并联后,结合声学模型以及发音字典,通过组合、确定化、最小化操作合成WFST语音识别网络。通过在同一平台上配置系统,加快语言模型的训练速度,缩短产品周期,缩短人力消耗,节约人力成本。同时通过通用语言模型网络及特定语言模型的合并,提高语言识别的准确性及效率。 | ||
| 搜索关键词: | 语音 识别 网络 可视化 生成 方法 系统 平台 | ||
【主权项】:
1.语音识别网络的可视化生成方法,该方法能够运行在Web端,所述方法包括:步骤S101,通过人机交互界面接收关键词;从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬取词及对应多个预设Web爬取页面;步骤S102,根据所述当前领域字段获取对应的预设爬取词,根据所述预设爬取词在所述当前领域字段对应的多个预设Web爬取页面上爬获第一爬取结果,根据所述第一爬取结果获取通用语料集;步骤S103,将所述关键词设为当前爬虫爬取词,根据所述当前爬虫爬取词在Web端从设定搜索引擎的返回页面中爬获第二爬取结果,根据所述第二爬取结果获取特定语料集;步骤S104,基于所述通用语料集进行训练生成arpa格式的通用语言模型,基于所述特定语料集进行训练生成arpa格式的特定语言模型;所述通用语言模型的文件信息及特定语言模型的文件信息中包括具有标识作用的版本号;步骤S105,将所述通用语言模型及所述特定语言模型合并,结合声学模型以及发音字典数据后合成WFST语音识别网络。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910719492.2/,转载请声明来源钻瓜专利网。





