[发明专利]一种确定语料意图的方法、装置及电子设备在审
申请号: | 202010985724.1 | 申请日: | 2020-09-18 |
公开(公告)号: | CN112256863A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 李涵;王俊;王雷;伍治源;魏青 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F40/194;G06F40/216 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 邓灵 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 语料 意图 方法 装置 电子设备 | ||
本申请提供了一种确定语料意图的方法、装置及电子设备,用以高效地确定语料意图,该方法包括:基于预设的规则对第一语料集进行核心词筛选之后,根据核心词对该语料集进行子集划分(即分类),得到多个子集;对于多个子集中语料数量满足预设条件的子集,直接基于该子集对应的核心词,确定该子集的意图,对于多个子集中语料数量不满足预设条件的任一子集,将其作为新的第一语料集,采用新的核心词再对新的第一语料集进行子集划分,以此循环,直到所有的语料都能确定出意图。该方法的整个过程不需要人工参与,可以实现自动、高效、低成本地确定语料意图,进而提升对话机器人的智能性。
技术领域
本申请涉及计算机技术领域,尤其涉及一种确定语料意图的方法、装置及电子设备。
背景技术
随着计算机技术的飞速发展,为了满足商业业务和人们日常生活的需要,对话机器人应运而生。其中,对话机器人的智能程度由算法引擎的能力和对话意图的丰富性决定。因此,在算法引擎稳定的情况下,要提高机器人的智能程度,就需要提升对话系统中意图的丰富性。
大部分厂商对于语料的新意图挖掘,多采用聚类和人工分析相结合的方式,但对话机器人获取到的对话语料多为短文本语料,且语料语义特征少、语料分布不均匀,数据稀疏。因此,采用常见聚类算法对这些短文本语料进行聚类,会将不相关的语料聚合在一起,导致聚类出的结果不准确,需要大量的人工分析,加重了人工成本。
也有部分厂商采用迁移学习与分类相结合的方法来实现语料的新意图挖掘,但这种方式也需要大量人工对语料进行数据标注,且这种方式中迁移学习模型训练所需的计算能力较高、训练周期长。因此,这种方式仍存在成本高、效率低、无法快速满足业务需求的问题。
由上述分析可知,当前聚类或分类等机器学习方法无法高效准确地实现对话语料的新意图挖掘,需要耗费大量的人工成本或计算设备成本,且效率较低。因此,如何实现高效、低成本地对语料进行新意图挖掘,是目前亟需解决的技术问题。
发明内容
本申请提供一种确定语料意图的方法、装置及电子设备,用以高效地确定语料意图。
第一方面,提供一种确定语料意图的方法,该方法可以由电子设备执行,也可以由设备中的软件程序或硬件芯片执行,本申请这里不做限定。在该方法中,电子设备首先获取包含若干条语料的第一语料集;之后,电子设备从第一语料集中确定出至少一个核心词,并根据至少一个核心词对第一语料集执行预设操作。具体的,该预设操作包括:根据至少一个核心词对第一语料集中的语料进行子集划分,获得至少一个子集,其中,至少一个子集与至少一个核心词一一对应,每个子集中的语料均包含每个子集对应的核心词;并且,在至少一个子集中的第一子集中的语料数量小于第一预设值时,可以基于第一子集对应的核心词,确定第一子集中的所有语料的第一意图,并基于所述第一意图为所述第一子集中的所有语料添加意图标签;在第一子集中的语料数量不小于第一预设值时,将第一子集重新作为第一语料集,并对重新确定的第一语料集执行上述预设操作;其中,第一子集为至少一个子集中的任意一个子集;对不同所述第一语料集执行所述预设操作时所使用的核心词的词性不同。
在上述技术方案中,基于预设的规则对第一语料集进行核心词筛选之后,根据核心词对该语料集进行子集划分(即分类),得到多个子集;对于多个子集中语料数量满足预设条件(即语料数量小于第一预设值)的子集,直接基于该子集对应的核心词确定该子集的意图,而对于多个子集中语料数量不满足预设条件的子集,将其作为新的第一语料集,采用新的核心词再对新的第一语料集执行预设操作。整个过程可不需要人工参与,可以实现自动、高效、低成本地确定语料意图。而且根据新的核心词对第一语料集子集划分后得到的子集中不满足预设条件的子集重新执行预设操作,可以尽可能地挖掘出更多的语料意图,使得确定出的语料意图更加精确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010985724.1/2.html,转载请声明来源钻瓜专利网。