[发明专利]语料收集方法、装置、计算机设备及存储介质在审

申请号：	201811400312.6	申请日：	2018-11-22
公开（公告）号：	CN109471931A	公开（公告）日：	2019-03-15
发明（设计）人：	张鹏;敬大彦	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G10L15/06;H04L29/08
代理公司：	深圳市立智方成知识产权代理事务所(普通合伙) 44468	代理人：	王增鑫
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语料语料收集语音终端发送语音提示消息计算机设备存储介质网络终端语音识别真实场景高仿真座机准确率进线手机读出匹配逼近语音说话客户渠道
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种语料收集方法及装置，所述方法包括：向网络终端发送语料模板；向语音终端发送读出所述语料模板的语音提示消息；接收所述语音终端发送的目标语料；判断所述目标语料与所述语料模板是否匹配；若是，生成与所述语料模板对应的语料文件。本发明能够本发明能够针对预先设定的语料模板，有针对性的收集所需的语料并制成语料文件，可以高仿真地收集手机或者座机渠道进线的语音，逼近客户真实场景下说话的背景，显著提高语音识别模型的准确率。

技术领域

本发明涉及互联网应用技术领域，尤其涉及一种语料收集方法、装置、计算机设备及存储介质。

背景技术

随着AI语音识别技术的成熟和广泛应用，针对特殊场景收集大量语料的需求日益增多，高质量的语料可以训练出高可用的语音识别模型，进一步准确的识别出客户的意图。

现有相关技术中，大多基于对话的形式收集语料，该种语料的收集方法所收集的语料应用场景比较单一，仅用于聊天的场景；另一方面，该种语料的收集方法一般采用效仿聊天的收集方式，由熟悉业务的相关人员自行通过想象模拟对话场景，收集对话语料。这种语料收集方式，远离真实场景，容易陷入个人的思维及语言定式，导致语料真实度差，并且需要自行想象场景，效率低下。

因此，现有的技术方案中，语料的收集没有针对性，收集的语料不精准，语料真实度差，训练出的语音识别模型适用性不强，语料内容不够丰富。

发明内容

本发明提供一种语料收集方法及相应的装置，其主要实现了针对预先设定的语料模板，有针对性的收集所需的语料，并制成语料文件，可以高仿真地收集手机或者座机渠道进线的语音，逼近客户真实场景下说话的背景，如噪音、各种手机型号设备，显著提高语音识别模型的准确率。

本发明还提供一种用于执行本发明的语料收集方法的计算机设备及可读存储介质。

为解决上述问题，本发明采用如下各方面的技术方案：

第一方面，本发明提供一种语料收集方法，所述方法包括：

向网络终端发送语料模板；向语音终端发送读出所述语料模板的语音提示消息；

接收所述语音终端发送的目标语料；

判断所述目标语料与所述语料模板是否匹配；

若是，生成与所述语料模板对应的语料文件。

具体的，还包括：

接收用户的语音信息；