[发明专利]一种机器辅助的会议记录系统及方法有效
申请号: | 202110378334.2 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113129898B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 田金钊;程帆;符鸿飞 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/02;G10L17/18;G10L15/04;G10L15/26 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器 辅助 会议记录 系统 方法 | ||
1.一种机器辅助的会议记录系统,其特征在于,该系统包括:
麦克风收音阵列:用以实时拾取会议的音频数据;
音频预处理模块:对录入的音频数据进行分割和预处理,并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中;
声纹识别模块:用以判断音频数据中每句话所属说话人身份信息,并且为每句话匹配说话人身份标签;
语音识别模块:用以将音频数据转换为文字信息;
综合处理模块:用以组合声纹识别模块与语音识别模块的输出内容,并发送给终端界面;
可实时交互处理的终端界面:用以实时进行操作处理,显示会议记录信息,依据机器生成的内容,实时进行纠错改正;
所述的声纹识别模块包括依次连接的帧级特征提取器、注意力统计池化层和话语级别特征提取器,所述的帧级特征提取器用以提取分为多帧后的音频数据的帧级特征,注意力统计池化层用以根据帧级特征输出帧级特征的权重平均值和权重标准差,所述的话语级别特征提取器将帧级特征权重平均值作为话语级特征并输入,生成表示说话人身份的数值向量;
所述的帧级特征提取器和话语级特征处理器采用基于CNN、LSTM或Transformer结构的深度神经网络模型;
所述的语音识别模块包括:
编码器网络:由多个块堆叠形成,每个块依次包含layer norm、multi-headattention、feed-forward network和ResNet connection,所述的feed-forward network由多层全连接串联而成,其激活函数为ReLU,所述的ResNet connection用于深度提取特征信息;
预测网络:除multi-head attention使用特定的掩码外,在结构上与编码器相同;
联合网络:接收编码器网络和预测网络输出的线性组合,由多层全连接层组成,其中,最后一层为softmax层,输出概率分布,根据概率分布生成相应的文字;
所述的语音识别模块中的网络采用的Loss函数为标签序列所有对齐的概率和,则有:
其中,loss为损失P(yi|xi)为第i个样本的标签序列对应的所有可能对齐的概率和,α(Ti,Ui)为采用前向算法计算得到的对齐路径的概率和,Ti表示时间,Ui表示状态;
所述的终端界面包括:
说话人管理组件:用以实时标注说话人的身份标签,替换临时生成的说话人身份标签;
文字操作组件:用以实时修改根据语音自动生成的文字;
导出模块:依据选定的保存格式,将会议记录进行导出存档。
2.一种机器辅助的会议记录方法,其特征在于,基于如权利要求1所述的机器辅助的会议记录系统实现,所述方法包括以下步骤:
1)通过麦克风收音阵列实时拾取会议的音频数据;
2)通过音频预处理模块对录入的音频数据进行分割和预处理,并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中;
3)通过声纹识别模块判断音频数据中每句话所属说话人身份信息,并且为每句话匹配说话人身份标签;
4)通过语音识别模块将音频数据转换为文字信息;
5)通过综合处理模块组合声纹识别模块与语音识别模块的输出内容,并发送给终端界面;
6)在终端界面实时显示会议记录信息,依据机器生成的内容,进行纠错改正;
所述的声纹识别模块包括依次连接的帧级特征提取器、注意力统计池化层和话语级别特征提取器,所述的帧级特征提取器用以提取分为多帧后的音频数据的帧级特征,注意力统计池化层用以根据帧级特征输出帧级特征的权重平均值和权重标准差,所述的话语级别特征提取器将帧级特征权重平均值作为话语级特征并输入,生成表示说话人身份的数值向量;
所述的帧级特征提取器和话语级特征处理器采用基于CNN、LSTM或Transformer结构的深度神经网络模型;
所述的步骤2)具体包括以下步骤:
21)将音频分成若干帧,利用帧级特征提取器提取不同的帧级特征;
22)将帧级特征输入注意力统计池化层,输出帧级特征的权重平均值以及权重标准差;
23)将帧级特征权重平均值作为话语级特征,输入话语级别特征提取器中,生成表示说话人身份的数值向量;
所述的语音识别模块包括:
编码器网络:由多个块堆叠形成,每个块依次包含layer norm、multi-headattention、feed-forward network和ResNet connection,所述的feed-forward network由多层全连接串联而成,其激活函数为ReLU,所述的ResNet connection用于深度提取特征信息;
预测网络:除multi-head attention使用特定的掩码外,在结构上与编码器相同;
联合网络:接收编码器网络和预测网络输出的线性组合,由多层全连接层组成,其中,最后一层为softmax层,输出概率分布,根据概率分布生成相应的文字;
所述的语音识别模块中的网络采用的Loss函数为标签序列所有对齐的概率和,则有:
其中,loss为损失,P(yi|xi)为第i个样本的标签序列对应的所有可能对齐的概率和,α(Ti,Ui)为采用前向算法计算得到的对齐路径的概率和,Ti表示时间,Ui表示状态;
所述的步骤5)具体包括以下步骤:
51)控制音频输入预处理模块,划分句子逻辑;
52)接收声纹识别模块以及语音处理模块的输出,判断句子所属说话人标签;
53)生成文字信息,输出给用户逻辑界面;
54)截取语音片段,使得每句话均有相对应的语音片段;
55)接收修改反馈信息,修改文字逻辑输出;
56)依据选定要求,生成存档信息;
所述的步骤54)具体为:
依据声纹识别模块输出的说话人身份标识信息,在身份发生转变的时刻,记录音频起始时间和结束时间,在进行查询时,依据已记录的信息,输出起始时间到结束时间的音频部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110378334.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铸铁井盖表层除砂结构装置及其除尘方法
- 下一篇:可抽出式插座