[发明专利]语料收集方法、装置、计算机设备及存储介质在审
申请号: | 201811400312.6 | 申请日: | 2018-11-22 |
公开(公告)号: | CN109471931A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 张鹏;敬大彦 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G10L15/06;H04L29/08 |
代理公司: | 深圳市立智方成知识产权代理事务所(普通合伙) 44468 | 代理人: | 王增鑫 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料 语料收集 语音终端 发送 语音提示消息 计算机设备 存储介质 网络终端 语音识别 真实场景 高仿真 座机 准确率 进线 手机 读出 匹配 逼近 语音 说话 客户 渠道 | ||
本发明提供一种语料收集方法及装置,所述方法包括:向网络终端发送语料模板;向语音终端发送读出所述语料模板的语音提示消息;接收所述语音终端发送的目标语料;判断所述目标语料与所述语料模板是否匹配;若是,生成与所述语料模板对应的语料文件。本发明能够本发明能够针对预先设定的语料模板,有针对性的收集所需的语料并制成语料文件,可以高仿真地收集手机或者座机渠道进线的语音,逼近客户真实场景下说话的背景,显著提高语音识别模型的准确率。
技术领域
本发明涉及互联网应用技术领域,尤其涉及一种语料收集方法、装置、计算机设备及存储介质。
背景技术
随着AI语音识别技术的成熟和广泛应用,针对特殊场景收集大量语料的需求日益增多,高质量的语料可以训练出高可用的语音识别模型,进一步准确的识别出客户的意图。
现有相关技术中,大多基于对话的形式收集语料,该种语料的收集方法所收集的语料应用场景比较单一,仅用于聊天的场景;另一方面,该种语料的收集方法一般采用效仿聊天的收集方式,由熟悉业务的相关人员自行通过想象模拟对话场景,收集对话语料。这种语料收集方式,远离真实场景,容易陷入个人的思维及语言定式,导致语料真实度差,并且需要自行想象场景,效率低下。
因此,现有的技术方案中,语料的收集没有针对性,收集的语料不精准,语料真实度差,训练出的语音识别模型适用性不强,语料内容不够丰富。
发明内容
本发明提供一种语料收集方法及相应的装置,其主要实现了针对预先设定的语料模板,有针对性的收集所需的语料,并制成语料文件,可以高仿真地收集手机或者座机渠道进线的语音,逼近客户真实场景下说话的背景,如噪音、各种手机型号设备,显著提高语音识别模型的准确率。
本发明还提供一种用于执行本发明的语料收集方法的计算机设备及可读存储介质。
为解决上述问题,本发明采用如下各方面的技术方案:
第一方面,本发明提供一种语料收集方法,所述方法包括:
向网络终端发送语料模板;向语音终端发送读出所述语料模板的语音提示消息;
接收所述语音终端发送的目标语料;
判断所述目标语料与所述语料模板是否匹配;
若是,生成与所述语料模板对应的语料文件。
具体的,还包括:
接收用户的语音信息;
提取所述语音信息中的业务信息;
根据所述语料文件处理所述业务信息。
具体的,所述语料文件包含目标业务,所述根据所述语料文件,处理所述业务信息包括:
获取所述语料文件中的所述目标业务,向用户的网络终端推送所述目标业务。
优选的,所述判断目标语料与语料模板是否匹配之后,还包括:
若否,向所述语音终端发送重新读出所述语料模板的语音提示消息。
具体的,所述判断目标语料与语料模板是否匹配,包括:
识别所述目标语料中的第一语料内容,获取所述语料模板中的第二语料内容;判断所述第一语料内容与所述第二语料内容是否相同。
具体的,所述向网络终端发送语料模板之前,包括:
接收包含所述语音终端对应的用户号码的注册信息,执行注册;
向已注册的用户号码的语音终端发送呼叫请求。
具体的,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811400312.6/2.html,转载请声明来源钻瓜专利网。