[发明专利]用于舆情分类模型训练的数据处理方法和装置有效
申请号: | 202110964669.2 | 申请日: | 2021-08-23 |
公开(公告)号: | CN113434688B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 吴云朝;杜向阳 | 申请(专利权)人: | 南京擎盾信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/958 |
代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 卜荣丽;李志刚 |
地址: | 210000 江苏省南京市雨花台区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 舆情 分类 模型 训练 数据处理 方法 装置 | ||
本申请公开了一种用于舆情分类模型训练的数据处理方法和装置。该方法包括:通过对训练数据进行识别,通过已标注的训练数据对预先建立的舆情分类模型进行训练,获得过程舆情分类模型,通过过程舆情分类模型对未标注的训练数据进行预测识别,获得训练分类结果数据,根据训练分类结果数据进行筛选处理,获得目标训练数据,通过目标训练数据训练预先建立的舆情分类模型,得到目标舆情分类模型,解决了现有技术中训练舆情分类模型的效率较低的技术问题,提高舆情分类模型的训练效率。
技术领域
本申请涉及计算机领域,具体而言,涉及一种用于舆情分类模型训练的数据处理方法和装置。
背景技术
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
随着信息技术的不断发展,互联网成为信息传播的主要途径,互联网使社会舆情呈现源头多元化、传播扁平化、观点评价多样化、热点形成迅速化的特点,由于法院还是法律执行的完成节点,较易在涉法舆情中成为舆情热点部门,社交媒体中往往存在很多针对法院的言论,这些言论中有些过于偏激,如果法院不及时处理往往会给法院的工作造成不利影响。
通过训练舆情分类模型实现对网略舆情的实时监控,实现模型的效果通过训练数据集要对模型进行训练,互联网上舆情更新非常迅速,为了提高模型的效果,需要不断更新模型训练数据集以对舆情分类模型进行训练,现有技术中主要中的模型训练数据集大多是人工进行标注获得,耗费大量人力资源,且效率较低。
因此,现有技术中存在训练舆情分类模型的效率较低的技术问题。
发明内容
本申请的主要目的在于提供一种用于舆情分类模型训练的数据处理方法和装置,以提高舆情分类模型的训练效率。
为了实现上述目的,本申请提出一种用于舆情分类模型训练的数据处理方法。
根据本申请的第二方面,提出了一种用于舆情分类模型训练的数据处理装置。
根据本申请的第三方面,提出了一种计算机可读存储介质。
根据本申请的第四方面,提出一种电子设备。
有鉴于此,根据本申请的第一方面,提出了一种用于舆情分类模型训练的数据处理方法,包括:获取训练数据,其中,所述训练数据为训练舆情分类模型所需的舆情数据;
基于预设标注规则,对所述训练数据进行标注处理,获得目标训练数据;
基于所述目标训练数据,对预先建立的舆情分类模型进行训练处理,获得目标舆情分类模型。
进一步地,基于预设标注规则,对所述训练数据进行标注处理,获得目标训练数据,包括:
识别所述训练数据,获得第一训练数据,其中,所述第一训练数据为已标注的舆情数据;
基于第一训练数据,对所述预先建立的舆情分类模型进行训练,获得过程舆情分类模型;
识别所述训练数据,获得第二训练数据,其中,所述第二训练数据为未标注的舆情数据;
基于所述过程舆情分类模型,对所述第二训练数据进行舆情分类处理,获得训练分类结果数据;
对所述训练分类结果数据进行筛选处理,获得目标训练数据。
进一步地,基于第一训练数据,对所述预先建立的舆情分类模型进行训练,获得过程舆情分类模型,包括:
基于交叉构建规则,对所述第一训练数据执行交叉构建操作,获得多个子训练数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京擎盾信息科技有限公司,未经南京擎盾信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110964669.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种食物加工器具
- 下一篇:一种单手控制方法、装置及移动终端