[发明专利]文本的弱标注方法、装置、设备以及存储介质在审
申请号: | 202110587694.3 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113177109A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 黄海龙 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35;G06F40/194;G06F40/242;G06F40/279 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;熊成龙 |
地址: | 518000 广东省深圳市福田区福田街道益田路5033号平安*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标注 方法 装置 设备 以及 存储 介质 | ||
本发明提供了一种文本的弱标注方法、装置、设备以及存储介质,其中,方法包括:获取待分类文本,并从所述待分类文本中提取出标签词;从所述待分类文本中挑选出含有所述标签词的目标句子;通过预测模型预测预设词库中的各个词替换所述目标句子中的所述标签词的概率;根据各个词替换所述标签词的概率,从所述预设词库中选取第一预设个数的目标词汇;检测各个类别的预设词典中的词汇与所述目标词汇的重合个数;将所述重合个数大于第二预设个数对应的预设词典所在的目标类别作为所述待分类文本的弱标注。本发明的有益效果:实现了对文本的自动化标注,缩短了标注周期,减小了人力资源的投入。
技术领域
本发明涉及人工智能领域,特别涉及一种文本的弱标注方法、装置、设备以及存储介质。
背景技术
目前的基于深度学习的文本分类往往都需要高质量且具有一定规模的有标数据,高质量的有标数据都是人工进行标注的。然人工标注存在成本高,标注周期长的问题,无法满足业务的即时需求。针对数据不足的问题,现有技术中一般采用文本增强的方式,对已有的有标数据进行文本增强,对文本进行扩充。但是文本增强的方式仍需要耗费大量的人力资源。
发明内容
本发明的主要目的为提供一种文本的弱标注方法、装置、设备以及存储介质,旨在解决人工标注存在成本高,标注周期长的问题。
本发明提供了一种文本的弱标注方法,包括:
获取待分类文本,并从所述待分类文本中提取出标签词;
从所述待分类文本中挑选出含有所述标签词的目标句子;
通过预测模型预测预设词库中的各个词替换所述目标句子中的所述标签词的概率;
根据各个词替换所述标签词的概率,从所述预设词库中选取第一预设个数的目标词汇;
检测各个类别的预设词典中的词汇与所述目标词汇的重合个数;
将所述重合个数大于第二预设个数对应的预设词典所在的目标类别作为所述待分类文本的弱标注。
本发明还提供了一种文本的弱标注装置,包括:
提取模块,用于获取待分类文本,并从所述待分类文本中提取出标签词;
挑选模块,用于从所述待分类文本中挑选出含有所述标签词的目标句子;
替换模块,用于通过预测模型预测预设词库中的各个词替换所述目标句子中的所述标签词的概率;
选取模块,用于根据各个词替换所述标签词的概率,从所述预设词库中选取第一预设个数的目标词汇;
检测模块,用于检测各个类别的预设词典中的词汇与所述目标词汇的重合个数;
弱标注模块,用于将所述重合个数大于第二预设个数对应的预设词典所在的目标类别作为所述待分类文本的弱标注。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的有益效果:通过从待分类文本中提取关键词,并挑选出具有关键词的目标句子,并预测预设词库中替换标签词的概率,选取目标词汇,并根据目标词汇得到对应的类别,将该类别对待分类文本进行弱标注,从而实现了对文本的进行弱标注,缩短了标注周期,实现了对文本的自动化标注,减小了人力资源的投入。
附图说明
图1是本发明一实施例的一种文本的弱标注方法的流程示意图;
图2是本发明一实施例的一种文本的弱标注装置的结构示意框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110587694.3/2.html,转载请声明来源钻瓜专利网。