[发明专利]一种自动获取标注数据优化自定义唤醒模型的方法有效

申请号：	201811620403.0	申请日：	2018-12-28
公开（公告）号：	CN109637537B	公开（公告）日：	2020-06-30
发明（设计）人：	杨程远;陈孝良;冯大航;苏少炜;常乐	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/06;G10L15/26
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	任岩
地址：	100086 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种自动获取标注数据优化自定义唤醒模型方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种自动获取标注数据优化自定义唤醒模型的方法包括：建立初始的自定义唤醒模型；获取线上数据ASR的识别结果，并根据该识别结果中的文本进行筛选，自动获得标注音频数据；将筛选后的标注音频数据作为初始的自定义唤醒模型的训练数据，对初始的自定义唤醒模型进行优化更新。基于N‑Gram模型对ASR识别结果的文本成句概率进行筛选，从而自动获取标注音频数据，并将其作为自定义唤醒模型的训练数据，能够方便地实现自定义唤醒模型的优化训练。

技术领域

本公开涉及自动语音识别(Automatic Speech Recognition，简称ASR) 领域，尤其涉及一种基于N-Gram自动获取高精度标注数据优化自定义唤醒模型的方法。

背景技术

随着信息和通信技术的发展，智能设备已经在日常生活中被广泛应用。智能音箱等智能设备可使用通过麦克风采集到的音频信号来提供服务，例如智能语音设备作为家庭场景中有效的人工智能交互入口。

智能语音设备基于自动语音识别系统，自动语音识别系统由声学模型、语言模型、解码器三大部分构成。其中声学模型是由大量已经标注文本的音频的提特征之后通过DNN等方法训练得到的，大量领域相关、标注准确的音频是声学模型优化的主要途径。

对于智能音箱领域，智能音箱获取到用户输入的音频数据后，需要先检测获取到的声音信号中是否包括唤醒词，如果包括唤醒词，便会激活语音识别系统，来对获取到的声音信号进行识别，从而根据所识别出的声音信号执行相应的操作，如果不包括唤醒词，则不激活语音识别系统，也就不会对获取到的声音信号进行识别。即语音唤醒技术是一种具有开关入口属性的功能，用户通过唤醒词的唤醒，可以发起人机交互的操作，即智能音箱只有被用户所说的唤醒词唤醒后，才会对用户接下来的声音信号进行识别。因此，对于智能音箱等智能设备，为了方便用户自定义唤醒词，需要自定义唤醒模型。

与声学模型类似的，自定义唤醒模型同样需要大量的标注音频提高自定义唤醒词的覆盖率及准确性。在最初建立自定义唤醒模型之后，为了进一步提高唤醒词的覆盖率及准确性，还需要对自定义唤醒模型进行优化。

发明内容

(一)要解决的技术问题

本公开提供了一种基于N-Gram自动获取高精度标注数据优化自定义唤醒模型的方法，以至少部分解决以上所提出的技术问题。

(二)技术方案

根据本公开的一个方面，提供了一种自动获取标注数据优化自定义唤醒模型的方法包括：

建立初始的自定义唤醒模型；

获取线上数据ASR的识别结果，并根据该识别结果中的文本进行筛选，自动获得标注音频数据；

将筛选后的标注音频数据作为初始的自定义唤醒模型的训练数据，对初始的自定义唤醒模型进行优化更新。

在一些实施例中，所述建立初始的自定义唤醒模型包括：

采用已标注的音频输入到自定义唤醒模型进行训练，所述自定义唤醒模型输出用于确定是否进行语音唤醒的结果。

在一些实施例中，所述自定义唤醒模型由唤醒声学模型及解码器组成，自定义唤醒模型的唤醒词为用户自定义的。