[发明专利]用于舆情分类模型训练的数据处理方法和装置有效
申请号: | 202110964669.2 | 申请日: | 2021-08-23 |
公开(公告)号: | CN113434688B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 吴云朝;杜向阳 | 申请(专利权)人: | 南京擎盾信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/958 |
代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 卜荣丽;李志刚 |
地址: | 210000 江苏省南京市雨花台区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 舆情 分类 模型 训练 数据处理 方法 装置 | ||
1.一种用于舆情分类模型训练的数据处理方法,其特征在于,包括:
获取训练数据,其中,所述训练数据为训练舆情分类模型所需的舆情数据;
基于预设标注规则,对所述训练数据进行标注处理,获得目标训练数据;
基于所述目标训练数据,对预先建立的舆情分类模型进行训练处理,获得目标舆情分类模型;
其中,基于预设标注规则,对所述训练数据进行标注处理,获得目标训练数据,包括:
识别所述训练数据,获得第一训练数据,其中,所述第一训练数据为已标注的舆情数据;
基于第一训练数据,对所述预先建立的舆情分类模型进行训练,获得过程舆情分类模型;
识别所述训练数据,获得第二训练数据,其中,所述第二训练数据为未标注的舆情数据;
基于所述过程舆情分类模型,对所述第二训练数据进行舆情分类处理,获得训练分类结果数据;
对所述训练分类结果数据进行筛选处理,获得目标训练数据;
其中,基于第一训练数据,对所述预先建立的舆情分类模型进行训练,获得过程舆情分类模型,包括:
基于交叉构建规则,对所述第一训练数据执行交叉构建操作,获得多个子训练数据;
基于所述多个子训练数据,对所述预先建立的舆情分类模型进行训练,获得所述多个过程舆情分类模型,其中,所述过程舆情分类模型与所述子训练数据一一对应;
其中,基于所述过程舆情分类模型,对所述第二训练数据进行舆情分类处理,获得训练分类结果数据,包括:
对所述第二训练数据进行识别,得到第二训练数据中的法院关键词,其中,所述法院关键词包括法院机构词和法院行业词;
将第二训练数据中的法院机构词按照字进行拆分,将第二训练数据中的法院行业词按照字进行拆分,将所述第二训练数据中的舆情文本按照字进行拆分,将按照字拆分后的法院机构词、法院行业词和第二训练数据中的舆情文本输入所述过程舆情分类模型,得到语境向量数据;对所述语境向量数据进行标签概率值判断处理,得到所述训练分类结果数据;
对所述分类结果数据进行筛选,输出舆情提示信息之后,还包括:
若所述分类结果数据满足第一预设条件,获得第一结果数据;
若所述第一结果数据满足预设数据集更新条件时,获得更新训练数据,其中,所述更新训练数据为达到预设数据集更新的多个第一结果数据;
基于所述更新训练数据与所述训练数据,对预先建立的舆情分类模型进行模型训练,获得更新舆情分类模型。
2.根据权利要求1所述的数据处理方法,其特征在于,对所述训练分类结果数据进行筛选处理,获得目标训练数据,包括:
若所述训练分类结果数据满足第一预设条件,更新所述第一训练数据,获得第一过程训练数据,其中,所述第一过程训练数据包括所述第一训练数据和所述训练分类结果数据;
基于所述第一过程训练数据,对预先建立的舆情分类模型进行模型训练迭代操作,获得迭代分类标注结果数据;
若所述迭代分类标注结果数据满足第二预设条件,获得目标训练数据,其中,所述目标训练数据包括满足所述第二预设条件的迭代分类标注结果数据和所述第一训练数据。
3.根据权利要求1所述的数据处理方法,其特征在于,基于所述目标训练数据,对预先建立的舆情分类模型进行训练处理,获得目标舆情分类模型之后,还包括:
获取待处理舆情数据,其中,所述待处理舆情数据为所述舆情分类模型应用过程中待处理的舆情数据;
对所述待处理舆情数据进行预处理操作,获得输入舆情数据;
基于所述目标舆情分类模型,对所述输入舆情数据进行处理,获得分类结果数据;
对所述分类结果数据进行筛选,输出舆情提示信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京擎盾信息科技有限公司,未经南京擎盾信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110964669.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种食物加工器具
- 下一篇:一种单手控制方法、装置及移动终端