[发明专利]基于角色识别的语音识别系统有效
申请号: | 202110347499.3 | 申请日: | 2021-03-31 |
公开(公告)号: | CN113096669B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 黄星耀;熊倩;王枫;王学春;张志亮 | 申请(专利权)人: | 重庆风云际会智慧科技有限公司 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/02;G10L17/14;G10L15/26;G06K9/62 |
代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 赵玉乾 |
地址: | 400000 重庆市璧山区璧泉街道*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 角色 识别 语音 系统 | ||
本发明涉及语音数据处理技术领域,具体涉及一种基于角色识别的语音识别系统,包括:采集模块,用于采集谈话人与被谈话人的谈话语音;提取模块,用于根据谈话语音提取声纹特征;聚类模块,用于根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音;纠正模块,用于判断第一时延的标准差与第二时延的标准差是否均小于时延阈值:如果第一时延的标准差与第二时延的标准差均小于时延阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块;输出模块,用于输出第一语音与第二语音。本发明解决了通过声纹特征进行说话人角色识别准确率低的技术问题。
技术领域
本发明涉及语音数据处理技术领域,具体涉及一种基于角色识别的语音识别系统。
背景技术
目前,语音识别技术逐步应用到法庭庭审或会议过程中,对整个法庭庭审或会议过程以语音的形式进行记录。在法庭庭审或会议过程结束以后,再对语音中的内容进行分析,摘取有效的信息,最后形成稿件。其中,说话人角色识别或分离是语音处理过程的核心步骤,只有进行将说话人角色识别或分离后才可以知道哪些人具体说了哪些具体的内容。
比如说,中国专利CN111105801A公开了一种角色语音分离方法,包括步骤:建立数据信息库;在检测到用户对话时,对于对话中的每句话进行识别,用户包括用户组a和用户组b;对识别的结果提取声纹特征,输出提取结果;获取提取结果中属于用户组a的声纹特征并存入数据信息库中;其中,在检测到用户对话时,对于对话中的每句话进行识别,包括:获取用户的对话内容;提取用户组a的身份信息并存储到数据信息库中以用于区别用户组a和用户组b;将对话内容通过声纹引擎进行识别分类,分为用户组a的m个声音片段集和用户组b的n个声音片段集。
在上述技术方案中,基于说话人的声纹特征进行角色识别、分离,要想仅通过声纹特征将说话人的角色识别、分离开来,需要确保谈话语音是在良好的录音环境中进行录制的。但是,在实际的谈话场景下,比如法庭庭审,由于法庭空间狭小,声音的传播过程受空间大小的影响较大,以及会在空间中进行反射、衍射,甚至除了直达信号还有多径信号叠加进而出现混响,导致角色识别的准确率低。
发明内容
本发明提供一种基于角色识别的语音识别系统,解决了通过声纹特征进行说话人角色识别准确率低的技术问题。
本发明提供的基础方案为:基于角色识别的语音识别系统,包括:
采集模块,用于采集谈话人与被谈话人的谈话语音;
提取模块,用于根据谈话语音提取声纹特征;
聚类模块,用于对声纹特征进行聚类,将声纹特征分为谈话人对应的第一特征与被谈话人对应的第二特征,并根据第一特征与第二特征将谈话语音分为谈话人对应的第一语音与被谈话人对应的第二语音;
纠正模块,用于采用TDOA算法计算第一语音中各个音频片段的第一时延,采用TDOA算法计算第二语音中各个音频片段的第二时延,计算第一时延的标准差与第二时延的标准差,并判断第一时延的标准差与第二时延的标准差是否均小于时延阈值:如果第一时延的标准差与第二时延的标准差均小于时延阈值,发送输出结果的指令到输出模块;反之,发送重新聚类的指令到聚类模块;
输出模块,用于输出第一语音与第二语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆风云际会智慧科技有限公司,未经重庆风云际会智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110347499.3/2.html,转载请声明来源钻瓜专利网。