[发明专利]多人会话场景中发言人角色确定方法、智能会议方法及系统有效
申请号: | 201711341133.5 | 申请日: | 2017-12-14 |
公开(公告)号: | CN107993665B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 高建清;王智国;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L17/14 | 分类号: | G10L17/14;G10L17/04;G10L17/02;G10L15/26;G10L15/16;G10L17/18 |
代理公司: | 北京华圣典睿知识产权代理有限公司 11510 | 代理人: | 陈国伟 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 会话 场景 发言人 角色 确定 方法 智能 会议 系统 | ||
本发明公开了一种多人会话场景中发言人角色确定方法,该方法包括:预先构建发言人角色识别模型;接收发言人语音数据;对所述发言人语音数据进行识别,得到发言人文本数据;从所述发言人文本数据、或者所述发言人文本数据及所述发言人语音数据中提取角色识别特征;将提取的角色识别特征输入所述发言人角色识别模型,根据所述发言人角色识别模型的输出确定发言人角色。利用本发明,可以自动识别发言人的角色。本发明还公开一种智能会议方法及系统,可以向会议系统用户提供更丰富的会议相关信息,方便会议系统用户更好、更快地掌握会议内容。
技术领域
本发明涉及语音信号处理领域,具体涉及一种多人会话场景中发言人角色确定方法,还涉及一种智能会议方法及系统。
背景技术
近年来,随着人工智能逐渐成为新时代科技发展的方向,整个语音行业也迅速成长,尤其是听写技术发展最为迅速,目前已广泛在语音输入、语音搜索、语音助手等产品中得到应用并日臻成熟。
音频、视频、文字作为文化信息传播的不同表现形式,其中文字这种载体表现形式最为直观。无论是政企会议、公检法办案,还是教学培训、记者采访、个人录音等场合均需要形成完整的文字记录材料,音视频文件也需要形成字幕。为解决这些场景下的音频转文字问题,让各行各业的人不再为速记费用昂贵、人工整理录音复杂、录音质量低劣等问题而苦恼,自动进行语音转文本功能的产品应运而生,其中最具代表性的产品即会议转写系统。
现有的会议转写系统方案大致如下:接收会议中发言人语音数据,并提取所述语音数据的识别特征;根据提取的识别特征及预先训练好的识别模型,对语音数据进行识别,得到识别文本;对识别文本进行后处理,如断句、加标点、顺滑等,并将最终结果展示出来。
现有的会议转写系统中,其关注的重点一般是发言人的讲话内容,因而最终显示的也仅仅是对会议现场中各发言人语音进行转写得到的文本及相应标点,这样的显示内容及显示方式,由于没有更多的会议相关信息,因而对于一些事先未了解会议相关内容的用户或者中途加入的用户,难以较好、较快地融入会议中。
发明内容
本发明实施例一方面提供一种多人会话场景中发言人角色确定方法,能够根据发言人的语音数据自动识别发言人的角色。
本发明实施例另一方面提供一种智能会议方法及系统,可以向会议系统用户提供更丰富的会议相关信息,方便会议系统用户更好、更快地掌握会议内容。
为此,本发明提供如下技术方案:
一种多人会话场景中发言人角色确定方法,所述方法包括:
预先构建发言人角色识别模型;
接收发言人语音数据;
对所述发言人语音数据进行识别,得到发言人文本数据;
从所述发言人文本数据、或者所述发言人文本数据及所述发言人语音数据中提取角色识别特征;
将提取的角色识别特征输入所述发言人角色识别模型,根据所述发言人角色识别模型的输出确定发言人角色。
优选地,所述构建发言人角色识别模型包括:
确定发言人角色识别模型的拓扑结构;
收集大量相关会话场景数据作为训练数据,所述相关会话场景数据为标注发言人角色信息的语音数据及文本数据;
从所述训练数据中提取角色识别特征;
利用所述角色识别特征及标注信息训练得到模型参数。
优选地,所述角色识别特征包括:每个分析单元的讲话内容的语义;所述分析单元为短语、或句子、或段落、或篇章。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711341133.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种楼宇智能监控装置
- 下一篇:一种用于楼宇车库的安防监控装置