[发明专利]文本标签判别方法、装置、电子设备及存储介质有效
| 申请号: | 201910746255.5 | 申请日: | 2019-08-13 |
| 公开(公告)号: | CN112395528B | 公开(公告)日: | 2022-10-21 |
| 发明(设计)人: | 宋红叶;李红松;孙常龙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/9535;G06F16/35;G06Q30/06 |
| 代理公司: | 北京智信四方知识产权代理有限公司 11519 | 代理人: | 钟文芳;宋海龙 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 标签 判别 方法 装置 电子设备 存储 介质 | ||
本公开实施例公开了一种文本标签判别方法、装置、电子设备及存储介质,所述方法包括:获取目标文本数据以及标注标签;根据所述目标文本数据获得多个预测结果;其中,所述多个预测结果分别通过多个不同的预测模型得到,且所述标注标签与所述多个预测结果中的至少之一相一致;将所述目标文本数据、所述多个预测结果以及所述标注标签输入至文本标签判别模型进行学习,以便所述文本标签识别模型能够从所述多个预测模型的输出结果中识别出待识别文本的用户标签。通过本公开,文本标签判别模型可以学习到当前用户的真实意图,因此只需要用户提供少量的目标文本数据以及标注标签即可完成对文本标签判别模型的训练,降低了训练过程中的人工成本。
技术领域
本公开涉及计算机技术领域,具体涉及一种文本标签判别方法、装置、电子设备及存储介质。
背景技术
文本打标是一个很普遍的需求,一般会分为实体标签打标、关键短语打标。其中,领域自适应打标是一件很难但是有强烈需求的任务。比如,“人工智能”这个词,在人工智能领域中是一个普遍的词,并不能算关键短语,但是在新闻领域或者其他领域,是一个非常显著的关键短语。再比如,“小米”这个词,在数码领域很可能是品牌标签,但是在通用领域就是一个普通词。
对于用户来说,提供几十条标注有标签的样本数据是有可能的,但是算法需要大量的样本数据,特别是深度学习算法,需要的样本数据都是以万记,用户很难给出。
发明内容
本公开实施例提供一种文本标签判别方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种文本标签判别方法。
具体的,所述文本标签判别方法,包括:
获取目标文本数据以及标注标签;
根据所述目标文本数据获得多个预测结果;其中,所述多个预测结果分别通过多个不同的预测模型得到,且所述标注标签与所述多个预测结果中的至少之一相一致;
将所述目标文本数据、所述多个预测结果以及所述标注标签输入至文本标签判别模型进行学习,以便所述文本标签识别模型能够从所述多个预测模型的输出结果中识别出待识别文本的用户标签。
进一步地,所述方法还包括:
利用所述目标文本数据以及标注标签训练多个所述预测模型中的至少一个。
进一步地,所述方法还包括:
获取候选文本数据;
利用多个所述预测模型中的至少一个对所述候选文本数据进行预测,并在预测准确率低于预设阈值时,将所述候选文本数据确定为所述目标文本数据;
获取所述目标文本数据的所述标注标签。
进一步地,多个所述预测模型中的至少之一利用百科数据库中的文本数据训练得到。
第二方面,本公开实施例中提供了一种文本标签判别方法。
具体的,所述文本标签的判别方法,包括:
获取待识别文本数据;
根据所述待识别文本数据获得所述待识别文本数据对应的多个预测结果;其中,所述多个预测结果分别通过多个不同的预测模型得到;
将所述待识别文本数据以及所述多个预测结果输入至文本标签判别模型,获得所述待识别文本数据的判别标签;其中,所述文本标签判别模型利用第一方面所述的文本标签判别方法确定。
第三方面,本公开实施例中提供了一种对象推送方法。
具体的,所述对象推送方法,包括:
获取候选对象的文本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910746255.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动应答方法、装置、电子设备及存储介质
- 下一篇:一种触摸屏及电子设备





