[发明专利]语音对话方法和装置在审

申请号：	202111556688.8	申请日：	2021-12-17
公开（公告）号：	CN114385800A	公开（公告）日：	2022-04-22
发明（设计）人：	程凯	申请（专利权）人：	阿里巴巴（中国）有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G10L15/05;G10L25/87;G10L15/22
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	郝玉娥
地址：	310051 浙江省杭州市滨江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音对话方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了语音对话方法和装置。其中，所述方法通过对用户语音数据流执行语音端点检测，并执行语音识别处理；当检测到静音时长达到第一时长阈值，对语音识别文本进行句尾检测；响应于检测到文本句尾且检测到静音时长达到第二时长阈值，或者，响应于未检测到文本句尾且检测到静音时长达到第三时长阈值，根据语音识别文本和对话服务使用方提供的数据，执行语音回复处理。采用这种处理方式，使得采用动态语音端点检测方式，并将动态语音端点检测和文本句尾检测这两种检测方式相结合，协同进行用户语音断句的检测处理，这样可以有效提升语音断句结果的可信度，同时提升了断句速度，从而提升用户对话体验。

技术领域

本申请涉及语音处理技术领域，具体涉及语音对话方法和装置，以及电子设备。

背景技术

智能语音对话机器人，是能够以语音方式与用户进行对话的机器人。智能语音对话机器人在与用户对话的过程中，需要检测用户是否说完了一句话，在检测到用户一句话说完后，再根据语音识别和语义理解的结果，确定机器人的对话信息。因此，对用户语音进行句尾检测是影响机器人响应速度的关键一环。

一种典型的对用户语音进行句尾检测的方式是静音片段检测方式。该方式通过语音端点检测VAD技术，检查用户语音中出现的静音片段，在识别出静音片段后，如果静音时长达到静音时长阈值，则判定用户已说完，机器人可以进行对话响应。其中，静音时长阈值是对静音片段的时间长度进行限制。为了避免出现较多机器人误打断用户说话的情况，即用户说话时短暂停顿后机器人立即打断用户，通常将静音时长阈值设定为500毫秒左右，即用户说话时停顿了500毫秒以上，就视为用户已说完。

然而，在实现本发明过程中，发明人发现现有方案至少存在如下问题：在断句检测依据只是一个静音时长阈值的情况下，将阈值设置得大一些，虽然可以避免出现较多机器人误打断用户说话的情况，但检测时间会比较长，如500毫秒左右；将阈值设置得小一些，虽然检测时间比较短，但会出现较多机器人误打断用户说话的情况。综上所述，现有技术存在因无法快速且准确地进行语音断句，而导致机器人响应速度慢的问题。

发明内容

本申请提供语音对话方法，以解决现有技术存在的因无法快速且准确地进行语音断句，而导致机器人响应速度慢的问题。本申请另外提供语音对话装置和电子设备。

本申请提供一种语音对话方法，适用于机器人对话服务平台，包括：

从用户端获取用户语音数据流，并识别语音数据流对应的服务使用方；

对用户语音数据流执行语音端点检测，并获取语音数据流对应的语音识别文本；

当检测到静音时长达到第一时长阈值，对语音识别文本进行句尾检测；

响应于检测到文本句尾且检测到静音时长达到第二时长阈值，或者，响应于未检测到文本句尾且检测到静音时长达到第三时长阈值，根据语音识别文本和对话服务使用方提供的数据，执行语音回复处理；

其中第一时长阈值小于第二时长阈值，第二时长阈值小于第三时长阈值。

可选的，还包括：

响应于检测到文本句尾之后，根据语音识别文本的文意展示句尾承接语；或者

响应于未检测到文本句尾之后，根据语音识别文本的文意展示句中承接语。

可选的，根据语音识别文本的文意展示句尾承接语或句中承接语，包括：