[发明专利]一种说话人自动标注方法有效
| 申请号: | 201810673628.6 | 申请日: | 2018-06-27 |
| 公开(公告)号: | CN108735200B | 公开(公告)日: | 2020-05-29 |
| 发明(设计)人: | 庞在虎;张志平;陈博;朱风云 | 申请(专利权)人: | 北京灵伴即时智能科技有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/07;G10L15/26 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100083 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 说话 自动 标注 方法 | ||
1.一种说话人自动标注方法,包括如下步骤:
步骤一、对待标注的语音进行语音识别,得到文字内容以及静音段位置,并根据静音段位置将语音切分成多个短句;
步骤二、利用预先配置的基于内容的角色模型以及步骤一识别出的文字内容,对各个短句进行角色置信度打分,将得分达到要求的短句语音构成其对应角色的语音数据集合;
步骤三、将当前各角色集合中的语音作为训练数据,得到各角色的说话人识别模型;
步骤四、利用步骤三得到的说话人识别模型对其它短句打分,将得分达到要求的语音标记为相应角色,并加入到该角色语音数据集合中,将剩余的短句加入到待标注集合;
步骤五、利用经步骤四更新的角色集合对各个角色进行说话人识别模型更新;
步骤六、利用更新后的模型对待标注集合中的语音进行说话人识别,从而得到角色标注结果。
2.如权利要求1所述的一种说话人自动标注方法,其特征在于:步骤一中,所述文字内容的识别方法为大词汇连续语音识别方法。
3.如权利要求1所述的一种说话人自动标注方法,其特征在于:步骤一中,所述静音段检测与语音内容识别均在识别过程中完成,即将静音作为一个特殊音子来识别,并得到起止时间。
4.如权利要求1所述的一种说话人自动标注方法,其特征在于:步骤二中,所述基于内容的角色模型利用文字内容,并采用模糊匹配、关键词匹配、统计机器学习方法或深度学习方法构建。
5.如权利要求1所述的一种说话人自动标注方法,其特征在于:步骤二和步骤四中,所述得分达到要求是指最优角色置信分数最高或置信分数大于某一预设阈值。
6.如权利要求1所述的一种说话人自动标注方法,其特征在于:步骤三中,所述说话人识别模型采用基于UBM-GMM的i-vector模型方法训练得到。
7.如权利要求5所述的一种说话人自动标注方法,其特征在于:步骤四中所述得分达到要求还包括语句长度大于某一预设阈值。
8.如权利要求1所述的一种说话人自动标注方法,其特征在于:当所述角色为N时,步骤二中预先配置的角色模型数为N个或N-1个。
9.一种说话人自动标注方法,包括如下步骤:
步骤一、已知待标注语音中包含A、B两个角色,首先进行语音识别,得到文字内容以及静音段位置,并根据静音段位置将语音切分成多个短句;
步骤二、利用预先配置的基于内容的A角色模型以及步骤一识别出的文字内容,对各个短句进行角色置信度打分,用得分达到要求的短句语音构成A角色语音数据集合;
步骤三、将当前A角色集合中的语音作为训练数据,得到A角色的说话人识别模型;
步骤四、利用步骤三得到的A角色识别模型对其它短句打分,将得分超过一定阈值且语句长度超过一定阈值的短句标记为A角色,加入到A角色语句集合;将得分低于一定阈值且语句长度超过一定阈值的短句标记为B角色,加入到B角色语句集合;将剩余的短句加入到待标注集合;
步骤五、利用经步骤四更新的角色集合对两个角色进行说话人识别模型更新;
步骤六、利用更新后的模型对待标注集合中的短句进行说话人识别,从而得到角色A和B的标注结果。
10.如权利要求9所述的一种说话人自动标注方法,其特征在于:步骤二中,所述基于内容的角色模型利用文字内容,并采用模糊匹配、关键词匹配、统计机器学习方法或深度学习方法构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京灵伴即时智能科技有限公司,未经北京灵伴即时智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810673628.6/1.html,转载请声明来源钻瓜专利网。





