[发明专利]一种语音文本的显示方法、装置、设备及存储介质在审
| 申请号: | 202010980844.2 | 申请日: | 2020-09-17 |
| 公开(公告)号: | CN112185354A | 公开(公告)日: | 2021-01-05 |
| 发明(设计)人: | 余逸尘 | 申请(专利权)人: | 浙江同花顺智能科技有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/26;G06F40/109 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 310023 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 文本 显示 方法 装置 设备 存储 介质 | ||
本发明实施例公开了一种语音文本的显示方法、装置、设备及存储介质。包括:根据麦克风阵列采集的语音确定音源的第一位置信息;将所述语音转换为文本内容,并根据所述语音的音量确定所述文本内容对应的目标字体大小;根据所述第一位置信息和所述目标字体大小将所述文本内容在设定三维坐标系中显示。本发明实施例提供的语音文本的显示方法,可以将语音文本与说话人的位置及音量对应起来,提高语音文本的显示效果。
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音文本的显示方法、装置、设备及存储介质。
背景技术
语音可视化可以理解为通过自动语音识别技术将语音转换为本文,通过文本的形式可以直接看到语音的内容。说话人识别时识别说话用户的过程,基于音频特征识别出来某段音频对应的说话人。上述两种方式,在多人对话场景中,无法将语音与说话人的位置以及音量对应起来,使得语音文本的显示效果不佳。
发明内容
本发明提供一种语音文本的显示方法、装置、设备及存储介质,可以将语音文本与说话人的位置及音量对应起来,提高语音文本的显示效果。
第一方面,本发明实施例提供了一种语音文本的显示方法,包括:
根据麦克风阵列采集的语音确定音源的第一位置信息;
将所述语音转换为文本内容,并根据所述语音的音量确定所述文本内容对应的目标字体大小;
根据所述第一位置信息和所述目标字体大小将所述文本内容在设定三维坐标系中显示。
进一步地,所述麦克风阵列为至少三个,且设置在不同位置,根据麦克风阵列采集的语音确定音源的第一位置信息,包括:
获取各麦克风阵列采集到的语音相位差;
基于所述语音相位差确定音源相对于目标麦克风阵列的第一位置信息。
进一步地,所述第一位置信息包括音源与所述目标麦克风阵列的距离,确定所述语音的音量,包括:
确定所述语音由目标麦克风阵列采集到时的第一音量;
根据音源与所述目标麦克风阵列的距离基于设定音量衰减公式确定语音由所述音源产生时的音量。
进一步地,根据所述语音的音量确定所述文本内容对应的目标字体大小,包括:
获取基准音量对应的基准字体大小;
确定所述语音的音量与所述基准音量的比例;
根据所述比例和所述基准字体大小确定所述文本内容对应的目标字体大小。
进一步地,所述语音的音量由振幅表征;根据所述语音的音量确定所述文本内容对应的目标字体大小,包括:
获取当前对话场景包含的语音中的最大振幅和最小振幅;
根据所述最大振幅和最小振幅对各语音的振幅进行归一化处理;
根据归一化处理后的振幅确定各语音分别对应的目标字体大小。
进一步地,根据所述第一位置信息和所述目标字体大小将所述文本内容在设定三维坐标系中显示,包括:
获取所述目标麦克风阵列在设定三维坐标系的第二位置信息;
根据所述第一位置信息和所述第二位置信息确定所述音源在所述设定三维坐标系中的目标位置信息;
将所述文本内容在所述目标位置中以所述目标字体大小进行显示。
进一步地,在根据所述语音的音量确定所述文本内容对应的目标字体大小之后,还包括:
根据所述语音确定音源的情感信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江同花顺智能科技有限公司,未经浙江同花顺智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010980844.2/2.html,转载请声明来源钻瓜专利网。





