[发明专利]一种对话文本标注方法、装置、电子设备及存储介质在审
申请号: | 202110260937.2 | 申请日: | 2021-03-10 |
公开(公告)号: | CN112989040A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 张翼飞;张雪飞;孙喜锋 | 申请(专利权)人: | 河南中原消费金融股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 纪志超 |
地址: | 450000 河南省*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对话 文本 标注 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种对话文本标注方法,包括:获取对话文本及预设类型包含的关键句文本,并将对话文本及关键句文本进行向量转换,得到对话文本向量及关键句文本向量;利用预设类型的数量对对话文本向量及关键句文本向量进行聚类计算,得到向量聚类结果;利用向量聚类结果确定对话文本向量与关键句文本向量的匹配关系;利用关键句文本向量对应的预设类型,对与关键句文本向量建立匹配关系的对话文本向量对应的对话文本进行标注;本方法中,对话文本可通过与预设类型包含的关键句文本进行聚类计算进行自动标注,关键句文本带有预设类型所特有的文本特征,可确保标注的准确性;本发明还提供对话文本标注装置、电子设备及存储介质,具有上述有益效果。
技术领域
本发明涉及文本标注领域,特别涉及一种对话文本标注方法、装置、电子设备及存储介质。
背景技术
随着文本分类技术的不断发展,文本分类模型以在众多场景中得到应用。文本分类模型的分类精度依赖于足量的标注数据,因此如何高效地进行文本标记,对提升文本分类模型的精确度十分重要。
相关技术中,文本标记依赖于人工标记。由于人工标记的效率较低,若需提供大量的标注数据则要耗费大量的时间,同时人工标记的方法也存在人工成本较高的问题。
发明内容
本发明的目的是提供一种对话文本标注方法、装置、电子设备及存储介质,可通过与预设类型包含的关键句文本进行聚类计算的方式为对话文本进行自动标注,进而可提升对话文本标注的效率并降低标注成本。
为解决上述技术问题,本发明提供一种对话文本标注方法,包括:
获取对话文本及预设类型包含的关键句文本,并将所述对话文本及所述关键句文本进行向量转换,得到对话文本向量及关键句文本向量;
利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算,得到向量聚类结果;
利用所述向量聚类结果确定所述对话文本向量与所述关键句文本向量的匹配关系;
利用所述关键句文本向量对应的预设类型,对与所述关键句文本向量建立所述匹配关系的对话文本向量对应的对话文本进行标注。
可选地,在利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算之前,还包括:
计算所述对话文本向量与所有所述关键句文本向量之间的余弦相似度;
当所有所述余弦相似度均小于第一预设阈值时,则将所述余弦相似度对应的对话文本向量进行移除;
利用剩余的对话文本向量,执行所述利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算的步骤。
可选地,所述利用所述预设类型的数量对所述对话文本向量及所述关键句文本向量进行聚类计算,得到向量聚类结果,包括:
设置K均值聚类模型的聚类数量为所述预设类型的数量,并将所述K均值聚类模型使用的距离设置为余弦距离;
将所述对话文本向量及所述关键句文本向量输入所述K均值聚类模型,得到所述向量聚类结果。
可选地,在得到所述向量聚类结果之后,还包括:
根据所述向量聚类结果,将聚为同一类的对话文本向量及关键句文本向量设置为第一向量组;
查找所述第一向量组的质心,并计算所述质心与所述第一向量组包含向量的平均余弦距离;
若所述平均余弦距离大于第二预设阈值时,则利用所述第一向量组中包含的对话文本向量和关键句文本向量,执行所述将所述对话文本向量及所述关键句文本向量输入所述K均值聚类模型,得到所述向量聚类结果的步骤;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南中原消费金融股份有限公司,未经河南中原消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110260937.2/2.html,转载请声明来源钻瓜专利网。