[发明专利]文本相似度的确定方法、装置、电子设备及存储介质在审
申请号: | 202010147508.X | 申请日: | 2020-03-05 |
公开(公告)号: | CN111382562A | 公开(公告)日: | 2020-07-07 |
发明(设计)人: | 李艾宇;殷超 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G10L15/02;G10L15/10;G10L15/26 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张娜;臧建明 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 确定 方法 装置 电子设备 存储 介质 | ||
1.一种文本相似度的确定方法,其特征在于,包括:
获取待处理的第一文本和第二文本,并获得对应的第一音节信息和第二音节信息;其中,所述第一音节信息包括第一文本中的每个字符的音节;所述第二音节信息包括第二文本中的每个字符的音节;
利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;
根据各相似度取值,确定第一文本和第二文本之间的相似度。
2.根据权利要求1所述的文本相似度的确定方法,其特征在于,所述根据各相似度取值,确定第一文本和第二文本之间的相似度,包括:
将各相似度取值作为矩阵元素,构建相似度矩阵;
利用动态规划算法,确定相似度矩阵中的一个或多个最大相似路径;
根据一个或多个最大相似路径对应的相似度取值,确定第一文本和第二文本之间的相似度。
3.根据权利要求2所述的文本相似度的确定方法,其特征在于,所述利用动态规划算法,确定相似度矩阵中的一个或多个最大相似路径,包括:
在所述相似度矩阵中确定一个或多个子矩阵,其中,各子矩阵的矩阵元素不重叠,且每个子矩阵中的对角线沿线的各矩阵元素的均值大于预设的相似度阈值;
相应的,根据一个或多个最大相似路径对应的相似度取值,确定第一文本和第二文本之间的相似度,包括:
对各子矩阵中的对角线沿线的各矩阵元素进行求和,得到各子矩阵的相似度取值;
根据各子矩阵的相似度取值,确定第一文本和第二文本之间的相似度。
4.根据权利要求2所述的文本相似度的确定方法,其特征在于,所述根据一个或多个最大相似路径对应的相似度取值,确定第一文本和第二文本之间的相似度,包括:
确定各最大相似路径的相似度取值之和,以及确定所述第一文本和第二文本的字符数量的均值;
所述各最大相似路径的相似度取值之和与所述均值之比,构成所述第一文本和第二文本的相似度。
5.根据权利要求1所述的文本相似度的确定方法,其特征在于,所述获得对应的第一音节信息和第二音节信息,包括:
对获取的待处理的第一文本和第二文本进行字符分割处理,获得分别获得构成第一文本的字符和构成第二文本的字符;
对所述第一文本的字符和第二文本的字符进行音节转换处理,以获得每个字符对应的音节。
6.根据权利要求5所述的文本相似度的确定方法,其特征在于,所述每个字符对应的音节的数量为一个或多个。
7.根据权利要求5所述的文本相似度的确定方法,其特征在于,任一所述字符对应的音节中包括一个声母音节和一个韵母音节,或/和,任一所述字符对应的音节中包括一个韵母音节。
8.根据权利要求5所述的文本相似度的确定方法,其特征在于,所述每个字符对应的音节中包括有构成音节的音符以及对应的音调。
9.根据权利要求1-8任一项所述的文本相似度的确定方法,其特征在于,所述获取待处理的第一文本和第二文本,包括:
采集用户输入的语音信息;
对所述语音信息进行文本转换处理获得第一文本,以及将历史文本中的任一文本作为第二文本;其中,所述历史文本是对用户历史输入的语音信息进行文本转换处理得到的文本。
10.根据权利要求9所述的文本相似度的确定方法,其特征在于,还包括:
根据第一文本与各历史文本之间的相似度,在各历史文本中确定与第一文本相似度最高的文本,并将该相似度最高的文本所对应的答复文本作为第一文本对应的输出文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010147508.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种清洗蓝宝石晶片表面的方法
- 下一篇:意图识别系统及方法