[发明专利]文本相似度的确定方法、装置、电子设备及存储介质在审
申请号: | 202010147508.X | 申请日: | 2020-03-05 |
公开(公告)号: | CN111382562A | 公开(公告)日: | 2020-07-07 |
发明(设计)人: | 李艾宇;殷超 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G10L15/02;G10L15/10;G10L15/26 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张娜;臧建明 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 相似 确定 方法 装置 电子设备 存储 介质 | ||
本实施例提供的文本相似度的确定方法、装置、电子设备及存储介质,涉及一种自然语言处理技术,具体通过获取待处理的第一文本和第二文本以及对应的第一音节信息和第二音节信息;其中,第一音节信息包括第一文本中的每个字符的音节;第二音节信息包括第二文本中的每个字符的音节;并利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;根据各相似度取值,确定第一文本和第二文本之间的相似度。本申请获得的相似度是基于文本的字符对应的音节来确定的,从而在对于用户语音的相似识别上有着良好的识别准确率,进而智能问答系统的输出问答的准确性。
技术领域
本申请涉及数据处理技术,特别涉及一种自然语言处理技术。
背景技术
随着科技的发展,智能问答系统广泛应用各行各业中。在智能问答系统中,对于两个文本进行相似度判定是必不可少的执行步骤,一般的,首会先将语音转换为待分析的目标文本,然后通过分析目标文本与智能问答系统中的历史请求中的文本之间的相似程度,以确定智能问答系统针对该目标文本的问答策略。
在现有技术中,对于文本之间的相似度的判定是基于文本中的各字符字形的相似性来确定的,具体来说可通过利用最长的公共子序列的长度,或两个文本的编辑距离,来计算得到任意两个文本之间的相似度。
但是,由于不同的用户有着不同的发音习惯,在将语音转换为目标文本时,无法保证将用户语音转换为正确的目标文本,这将会导致基于转换后的目标文本进行相似度计算时容易出现误差,使得得到的判定结果不够准确,进而影响智能问答系统的输出问答的准确性。
发明内容
针对上述技术问题,本申请提供了一种文本相似度的确定方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供一种文本相似度的确定方法,包括:
获取待处理的第一文本和第二文本,并获得对应的第一音节信息和第二音节信息;其中,所述第一音节信息包括第一文本中的每个字符的音节;所述第二音节信息包括第二文本中的每个字符的音节;
利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;
根据各相似度取值,确定第一文本和第二文本之间的相似度。
第二方面,本申请实施例提供一种文本相似度的确定装置,包括:
音节转换模块,用于获取待处理的第一文本和第二文本,并获得对应的第一音节信息和第二音节信息;其中,所述第一音节信息包括第一文本中的每个字符的音节;所述第二音节信息包括第二文本中的每个字符的音节;
相似度取值获取模块,用于利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;
相似度确定模块,用于根据各相似度取值,确定第一文本和第二文本之间的相似度。
第三方面,本申请实施例提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的文本相似度的确定方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的文本相似度的确定方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010147508.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种清洗蓝宝石晶片表面的方法
- 下一篇:意图识别系统及方法