[发明专利]一种多人发言场景的语音识别方法和系统有效
申请号: | 201910803504.X | 申请日: | 2019-08-28 |
公开(公告)号: | CN110580907B | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 何世阳;王善彬 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/28;G10L25/51 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 发言 场景 语音 识别 方法 系统 | ||
本发明提供了一种多人发言场景的语音识别方法和系统,该多人发言场景的语音识别方法和系统不仅能够在多人发言场景中顺序地接收和识别语音信号,并且还能够在该多人发言场景中对每一个语音信号进行语音采集时间戳的识别从而有效地克服了原有的语音识别技术无法正确地还原不同发言端的发言顺序的缺陷;此外,方法和系统还能够准确地还原不同发言端之间的发言顺序以保证最终语音识别文本的准确性,以及节省后续语音识别结果整理的时间和提高语音识别的效率。
技术领域
本发明涉及语音识别的技术领域,特别涉及一种多人发言场景的语音识别方法和系统。
背景技术
目前,语音识别技术广泛应用于人机交互领域中,现有的语音识别技术能够准确地和快速地识别语音信号对应的发言对象以及语音信号本身的含义,这极大地推进了人机交互的应用和发展。
但是,现有语音识别技术的优势只局限于单人发言的场景中,对于多人发言场景,语音识别不仅需要识别不同语音信号对应的发言对象和语音含义,并且还要识别区别不同发言对象相互之间的发言顺序,以便于后续语音文本整理过程中匹配到正确的发言端中,从而最大限度地完整还原整个多个发言场景的对话内容。而现有的语音识别技术只能实现一对一的语音识别,并且由于语音识别的识别过程存在一定的识别结果延时,即语音识别需要经过一定的时间差才能得出相应的识别结果,而在该时间差的过程中可能发生了发言对象的切换,这就导致语音识别结果的输出时间与当前发言对象切换的时间点存在不同步的情况,并且该不同步的情况会随着多人发言的推进而不断积累,从而使得最终还原得到的多人发言场景的对话内容不能正确反映不同发言对象的发言顺序。可见,现有技术急需一种能够在多人发言场景中及时地和准确地识别不同发言端相互之间的发言顺序的语音识别方法和系统。
发明内容
针对现有技术存在的缺陷,本发明提供一种多人发言场景的语音识别方法和系统,其中,该多人发言场景的语音识别方法包括如下步骤:步骤(1),在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理;步骤(2),将每一个周期内该识别处理的结果转换成若干文本格式信息,并将该若干文本格式信息进行顺序缓存处理;步骤(3),对该顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得该缓存队列中所有语音信号的语音识别结果;相应地,该多人发言场景的语音识别系统是根据上述方法适应性地进行语音识别操作的。可见,该多人发言场景的语音识别方法和系统有别于现有技术的语音识别技术只能在多人发言场景中按照接收到的语音信号的顺序依次进行语音识别处理,该多人发言场景的语音识别方法和系统不仅能够在多人发言场景中顺序地接收和识别语音信号,并且还能够在该多人发言场景中对每一个语音信号进行语音采集时间戳的识别,虽然该方法和系统对应语音识别结果的输出仍然存在时间差,但是该方法和系统能够根据该语音采集时间戳对不同发言端的发言时间点进行识别,从而有效地克服了原有的语音识别技术无法正确地还原不同发言端的发言顺序的缺陷,该方法和系统能够准确地还原不同发言端之间的发言顺序以保证最终语音识别文本的准确性;此外,该方法和系统还通过构建顺序缓存队列来依次处理存储的语音信号,这不仅能够有效地降低语音识别的工作量,并且还能够保证每一个语音信号得到精确的识别处理,从而节省后续语音识别结果整理的时间和提高语音识别的效率。
本发明提供一种多人发言场景的语音识别方法,其特征在于,所述多人发言场景的语音识别方法包括如下步骤:
步骤(1),在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理;
步骤(2),将每一个周期内所述识别处理的结果转换成若干文本格式信息,并将所述若干文本格式信息进行顺序缓存处理;
步骤(3),对所述顺序缓存处理得到的缓存队列进行关于发言端身份切换与否的判断处理,以此获得所述缓存队列中所有语音信号的语音识别结果;
进一步,在所述步骤(1)中,在多个预设识别周期中的每一个周期内,对若干发言端中的每一个各自的语音信号及其语音采集时间戳进行识别处理具体包括,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910803504.X/2.html,转载请声明来源钻瓜专利网。