[发明专利]收音方法、装置及存储介质有效

申请号：	201811506659.9	申请日：	2018-12-10
公开（公告）号：	CN109599130B	公开（公告）日：	2020-10-30
发明（设计）人：	侯柏岑	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G10L25/78	分类号：	G10L25/78;G10L15/22
代理公司：	北京市铸成律师事务所 11313	代理人：	杨瑾瑾;陈建焕
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	收音方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提出一种收音方法、装置及计算机可读存储介质。其中收音方法包括：接收语音输入信息；检测所述语音输入信息中是否出现语音停顿；若检测到所述语音输入信息中出现语音停顿，则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果。本发明实施例通过优化收音规则和引入实时处理机制，增加接收到用户完整意图的概率，进而能够更大可能性地满足用户的实际需求，用户体验良好。

技术领域

本发明涉及声音处理技术领域，尤其涉及一种收音方法、装置及计算机可读存储介质。

背景技术

实际使用智能音箱、智能电视、智能手机等设备的语音服务过程中，常会出现这样一种场景：用户在表述意图的时候，有了轻微的停顿或犹豫，言语上出现了轻微的停顿或磕巴，设备的语音服务在这时结束了收音，并开始将用户已经表述的那部分内容进行处理，试图基于用户的这部分表述去解析用户意图、召回服务结果。但往往这部分表述并不是用户意图的完整表述，所以分析处理的结果很可能是未能匹配到结果，也即设备会提示“未找到结果”。

此时，用户就需要重新唤醒设备的语音服务，重新进行意图表述。这不仅形成了一次“未满足”的服务，还会对用户造成某种心理上的压力。用户会认为表述得不够快速，以迫使用户不得不加快语速并且不敢停顿或换气。例如，用户说“我想看…emmm…《新闻联播》。”其中，“emmm”表示用户想不起来某个词时而处于停顿时的状态，有时在停顿时也会发出“嗯嗯”的声音。在实际线上环境中，根据用户停顿来判断用户已经讲完，会在停顿时停止收音，因此会听不到用户表述的《新闻联播》这一主体内容。

从体验上看，目前的技术是当声音出现停顿，就停止收音。其中会设置一个停顿时间，例如停顿超过N秒，就停止收音。但并不是每一次声音出现停顿，都是表示意图表述完了。利用这个停顿去做收音结束的判断条件，会产生很多收音失误。而收音不准确，会直接导致后续的语音转文字、语义理解、结果召回等各个环节的准确率都不能满足需求。

综上所述，现有技术的收音方法，会产生很多收音失误，可能接收不到用户的完整意图，用户体验不佳。

发明内容

本发明实施例提供一种收音方法、装置及计算机可读存储介质，以至少解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种收音方法，包括：

接收语音输入信息；

检测所述语音输入信息中是否出现语音停顿；

若检测到所述语音输入信息中出现语音停顿，则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果。

在一种实施方式中，检测所述语音输入信息中是否出现语音停顿，包括：

检测所述语音输入信息中的语音中断时间；

若所述语音中断时间大于等于预设的第一时间阈值，则确定所述语音输入信息中出现语音停顿。

在一种实施方式中，若检测到所述语音输入信息中出现语音停顿，则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果，包括：

若检测到所述语音输入信息中出现语音停顿，则将新增信息与原有信息相结合，形成所述语音输入信息的完整表述；