[发明专利]对话语料的检索方法及装置有效
| 申请号: | 202211178248.8 | 申请日: | 2022-09-27 |
| 公开(公告)号: | CN115269810B | 公开(公告)日: | 2023-01-06 |
| 发明(设计)人: | 张献涛;支涛 | 申请(专利权)人: | 北京云迹科技股份有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/289 |
| 代理公司: | 北京嘉科知识产权代理事务所(特殊普通合伙) 11687 | 代理人: | 杨波 |
| 地址: | 100089 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 对话 语料 检索 方法 装置 | ||
本公开涉及检索技术领域,提供了对话语料的检索方法及装置。该方法包括:获取检索文本和待检索的对话语料集,其中,检索文本包括多个检索词,对话语料集包括多条对话语料;统计检索文本中所有检索词在每条对话语料中出现的总次数;计算检索文本中所有检索词在每条对话语料中的总距离;根据检索文本中所有检索词在每条对话语料中出现的总次数和检索文本中所有检索词在每条对话语料中的总距离,计算每条对话语料对应的匹配得分;根据每条对话语料对应的匹配得分,从对话语料集中确定出检索结果。采用上述技术手段,解决现有技术中,现有的检索对话记录的方法,存在效率低和准确率低的问题。
技术领域
本公开涉及检索技术领域,尤其涉及一种对话语料的检索方法及装置。
背景技术
随着数字化和智能化技术在各个领域的深入发展,更多的智能化设备在生活中发挥作用。各种智能的语音设备,如智能音箱、智能手机、智能机器人等设备都已经支持语音的对话。对话记录会不停的增长,面对千万甚至上亿级的对话记录,如何能快速、准确的获得需要的信息,是一个急需解决的问题。
对话记录的检索区别于普通文档的检索,有如下的特点:检索文本的内容都比较简单,是一系列的单词的集合,信息精简;对话记录的内容则一般不同于普通文档,对话记录的内容都比较简短,基本是单句构成。目前的检索方法都是针对普通文档的,并没有针对对话记录的检索方法,使用现有的检索方法检索对话记录,效率低以及准确率低。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:现有的检索对话记录的方法,存在效率低和准确率低的问题。
发明内容
有鉴于此,本公开实施例提供了一种对话语料的检索方法、装置、电子设备和计算机可读的存储介质,以解决现有技术中,现有的检索对话记录的方法,存在效率低和准确率低的问题。
本公开实施例的第一方面,提供了一种对话语料的检索方法,包括:获取检索文本和待检索的对话语料集,其中,检索文本包括多个检索词,对话语料集包括多条对话语料;统计检索文本中所有检索词在每条对话语料中出现的总次数;计算检索文本中所有检索词在每条对话语料中的总距离;根据检索文本中所有检索词在每条对话语料中出现的总次数和检索文本中所有检索词在每条对话语料中的总距离,计算每条对话语料对应的匹配得分;根据每条对话语料对应的匹配得分,从对话语料集中确定出检索结果。
本公开实施例的第二方面,提供了一种对话语料的检索装置,包括:获取模块,被配置为获取检索文本和待检索的对话语料集,其中,检索文本包括多个检索词,对话语料集包括多条对话语料;统计模块,被配置为统计检索文本中所有检索词在每条对话语料中出现的总次数;计算模块,被配置为计算检索文本中所有检索词在每条对话语料中的总距离;第一确定模块,被配置为根据检索文本中所有检索词在每条对话语料中出现的总次数和检索文本中所有检索词在每条对话语料中的总距离,计算每条对话语料对应的匹配得分;第二确定模块,被配置为根据每条对话语料对应的匹配得分,从对话语料集中确定出检索结果。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云迹科技股份有限公司,未经北京云迹科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211178248.8/2.html,转载请声明来源钻瓜专利网。





