[发明专利]句子相似度判断方法、装置、电子设备和可读存储介质有效
申请号: | 202110263108.X | 申请日: | 2021-03-11 |
公开(公告)号: | CN112687257B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 李自荐;秦勇 | 申请(专利权)人: | 北京新唐思创教育科技有限公司 |
主分类号: | G10L13/027 | 分类号: | G10L13/027;G10L25/27;G10L25/51 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 顾可嘉;夏华栋 |
地址: | 100043 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 相似 判断 方法 装置 电子设备 可读 存储 介质 | ||
本申请提供了一种句子相似度判断方法、装置、电子设备和可读存储介质,方法包括获取第一文本句子和第二文本句子;生成第一文本句子的第一语音信息,生成第二文本句子的第二语音信息,将第一语音信息转换为第一声谱图,以及,将第二语音信息转换为第二声谱图;根据第一声谱图和第二声谱图,确定第一文本句子与第二文本句子的相似度。通过实施本申请实施例的技术方案使得第一文本句子和第二文本句子的相似度判断更加准确。
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种句子相似度判断方法、装置、电子设备和可读存储介质。
背景技术
文本句子包含的语义信息非常丰富,而且同一个语义可以有多种不同的表达,非常的灵活,这导致了用机器判断两个句子的相似度非常困难,现有技术都是从字符的层面来判断两个句子的相似性,导致句子相似度判断效果不佳。
发明内容
为了解决上述技术问题中的至少一个,本申请实施例提供一种句子相似度判断方法、装置、电子设备和可读存储介质。
本申请的第一方面,一种句子相似度判断方法,包括:
获取第一文本句子和第二文本句子;
生成所述第一文本句子的第一语音信息,以及,生成所述第二文本句子的第二语音信息;
将所述第一语音信息转换为第一声谱图,以及,将所述第二语音信息转换为第二声谱图;
根据所述第一声谱图和所述第二声谱图,确定所述第一文本句子与所述第二文本句子的相似度。
可选的,所述生成所述第一文本句子的第一语音信息,包括:将所述第一文本句子输入预先训练的语音合成模型,以生成所述第一语音信息;
所述生成所述第二文本句子的第二语音信息,包括:将所述第二文本句子输入预先训练的语音合成模型,以生成所述第二语音信息;
其中,所述语音合成模型根据待训练句子以及待训练句子的目标语音信息训练得到。
可选的,所述根据所述第一声谱图和所述第二声谱图,确定所述第一文本句子与所述第二文本句子的相似度,包括:
根据所述第一声谱图和所述第二声谱图的相似度,确定所述第一文本句子与所述第二文本句子的相似度。
可选的,所述根据所述第一声谱图和所述第二声谱图,确定所述第一文本句子与所述第二文本句子的相似度,包括:
将所述第一声谱图和所述第二声谱图输入预先训练的相似度评估模型,以生成所述第一文本句子与所述第二文本句子的相似度。
可选的,所述相似度评估模型根据第一待训练语音的声谱图、第二待训练语音的声谱图、以及,所述第一待训练语音的声谱图与所述第二待训练语音的声谱图的目标相似度训练得到:
其中,所述第一待训练语音为第一待训练文本句子的语音;
所述第二待训练语音为第二待训练文本句子的语音;
所述第一待训练语音的声谱图与所述第二待训练语音的声谱图的目标相似度为所述第一待训练文本句子与所述第二待训练文本句子的相似度。
可选的,所述相似度评估模型包括特征提取网络,所述特征提取网络由具有相同结构且共享权重参数的第一分支网络和第二分支网络组成;
所述第一分支网络用于提取所述第一声谱图的特征;
所述第二分支网络用于提取所述第二声谱图的特征。
可选的,所述第一分支网络由第一网络层和第二网络层组成;
所述第一网络层,用于提取所述第一声谱图的第一特征张量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新唐思创教育科技有限公司,未经北京新唐思创教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110263108.X/2.html,转载请声明来源钻瓜专利网。