[发明专利]无监督角色识别方法、装置、电子设备及存储介质在审
| 申请号: | 202010790776.3 | 申请日: | 2020-08-07 |
| 公开(公告)号: | CN111985231A | 公开(公告)日: | 2020-11-24 |
| 发明(设计)人: | 李娜;罗红 | 申请(专利权)人: | 中移(杭州)信息技术有限公司;中国移动通信集团有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35 |
| 代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
| 地址: | 310011 浙江省杭州*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 监督 角色 识别 方法 装置 电子设备 存储 介质 | ||
本发明实施例涉及信息处理领域,公开了一种无监督角色识别方法。本发明通过多维度提取语音信息的梅尔倒谱特征,得到多组不同维度的梅尔倒谱特征组,对多组不同维度的所述梅尔倒谱特征组进行角色标签聚类,得到多组原始角色标签集,根据预先构建的标签选取原则,从多组所述原始角色标签集中筛选原始角色标签,得到标准角色标签集,根据预构建的文本关键字识别机制,识别与所述语音信息对应的语句集内关键字,得到关键字集,根据所述关键字集和所述标准角色标签集执行对所述语音信息的角色识别。本发明还提出一种无监督角色识别装置、电子设备以及计算机可读存储介质。本发明有效的解决训练数据获取困难,角色识别应用场景有限的问题。
技术领域
本发明实施例涉及信息处理领域,特别涉及一种无监督角色识别的方法、装置、电子设备及计算机可读存储介质。
背景技术
角色识别(Speaker Diarization)主要是解决识别什么时间哪一位说话人讲话的问题,特别是基于语音的角色识别,具有重要的应用价值。目前针对语音信息的角色识别方法主要有无监督方法和有监督方法。但是发明人发现,有监督方法在模型训练阶段需要大量的目标识别人的语音片段才能将目标人的个性化特征进行表征,在实际的电话通话场景应用中,难以获取同一目标人物的大量语音片段,因此训练数据获取困难;而当前无监督方法需要引入带有视频信息的语音信息,但是在电话通话场景中,说话人的视频信息无从获取,导致应用场景有限。
发明内容
本发明实施方式的目的在于提供一种无监督角色识别方法、电子设备、装置及计算机可读存储介质,有效的解决训练数据获取困难,角色识别应用场景有限的问题。
为解决上述技术问题,本发明的实施方式提供了一种无监督角色识别方法,所述方法包括:
将语音信息转译为单词集和与所述单词集对应的时间集;
根据所述时间集和预设的时间间隔阈值,对所述单词集进行单词合并,得到语句集;
通过多维度提取所述语音信息的梅尔倒谱特征,得到多组不同维度的梅尔倒谱特征组;
对多组不同维度的所述梅尔倒谱特征组进行角色标签聚类,得到多组原始角色标签集;
根据预先构建的标签选取原则,从多组所述原始角色标签集中筛选原始角色标签,得到标准角色标签集;
根据预构建的文本关键字识别机制,识别所述语句集内关键字,得到关键字集,根据所述关键字集和所述标准角色标签集执行对所述语音信息的角色识别。
为了解决上述问题,本发明还提供一种无监督角色识别装置,所述装置包括:
语音信息转译模块,用于将语音信息转译为单词集和与所述单词集对应的时间集;
梅尔倒谱特征提取模块,用于根据所述时间集和预设的时间间隔阈值,对所述单词集进行单词合并,得到语句集;
角色标签获取模块,用于通过多维度提取所述语音信息的梅尔倒谱特征,得到多组不同维度的梅尔倒谱特征组,对多组不同维度的所述梅尔倒谱特征组进行角色标签聚类,得到多组原始角色标签集,根据预先构建的标签选取原则,从多组所述原始角色标签集中筛选原始角色标签,得到标准角色标签集。
角色识别模块,用于根据预构建的文本关键字识别机制,识别所述语句集内关键字,得到关键字集,根据所述关键字集和所述标准角色标签集执行对所述语音信息的角色识别。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的无监督角色识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(杭州)信息技术有限公司;中国移动通信集团有限公司,未经中移(杭州)信息技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010790776.3/2.html,转载请声明来源钻瓜专利网。





