[发明专利]基于自注意的社交媒体主题评论的细粒度分类方法及系统在审
申请号: | 202210356737.1 | 申请日: | 2022-04-06 |
公开(公告)号: | CN115129807A | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 王苇;格日勒泰;胡潇 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/9536;G06F40/284;G06F40/289;G06N3/04;G06N3/08;G06Q50/00 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 吴朝阳 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意 社交 媒体 主题 评论 细粒度 分类 方法 系统 | ||
本发明公开了一种基于自注意的社交媒体主题评论的细粒度分类方法,包括:步骤a、对社交媒体主题评论数据进行预处理和细粒度分类标注,得到文本语料数据集,向量化得到向量化文本语料数据集;步骤b、构建基于多头输入结构层、LSTM层、自注意力层、正则化层、分类输出层的分类模型,经多次训练得到训练后的分类模型;步骤c、将待分类的社交媒体主题评论数据进行预处理、向量化后,输入到训练后的分类模型中,输出得到该社交媒体主题评论数据的细粒度分类。本发明具有对社交媒体主题评论进行情感倾向的细粒度分类的有益效果。提供一种基于自注意的社交媒体主题评论的细粒度分类系统,具有占用资源更少,更容易部署在本地的有益效果。
技术领域
本发明涉及社交媒体主题评论的细粒度分类技术领域。更具体地说,本发明涉及一种基于自注意的社交媒体主题评论的细粒度分类方法及系统。
背景技术
越来越多的线下活动开始在线上举行,我国网民规模达 10亿级,社交媒体用户更加活跃,而由此带来的互联网信息量也快速增长,而由此产生了海量的用户主观文本数据。这些数据通常隐含用户的主观情绪,通过分析这些文本数据中的情感倾向,可以了解用户对某一话题或事物的喜好、价值观等信息,对于企事业单位或学术研究团体有重要意义。
目前公开的舆情分析算法中仅支持对用户情感倾向进行粗粒度分类,如果需要进一步分析用户的对某一目标属性的情感倾向,则仍需要人工辅助判断。作为自然语言处理的一个重要研究方向,舆情分析又称为情感分析,是人工智能技术在舆情分析方面的重要应用。通过对用户情感倾向性的进一步细化分类,可以进一步判别用户的喜好、是非观、价值观、政治观等隐含信息,为大数据时代网络舆情分析提供重要的数据支持。
而得到能够对目标文本语料的情感倾向进行多标签分类(细粒度分类),需要解决的难点有:1、建立多标签分类方法;2、将目标文本语料向量化以供给模型使用;3、搭建符合多标签情感分类的算法模型4、调整模型以提高目标文本语料在各标签数据量非对称情况下有效提升算法的判别准确率。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
为了实现根据本发明的这些目的和其它优点,提供了一种基于自注意的社交媒体主题评论的细粒度分类方法,包括以下步骤:
步骤a、对原始社交媒体主题评论数据进行预处理和细粒度分类标注,得到文本语料数据集,并进行向量化,得到对应的向量化文本语料数据集;
步骤b、构建基于多头输入结构层、LSTM层、自注意力层、正则化层、分类输出层的分类模型,然后将向量化的文本语料数据和对应的分类标注,输入至分类模型中,进行训练,输出得到预测的分类结果,并通过交叉熵损失函数计算预测的分类结果与对应的分类标注的误差,然后通过AdamWarmup算法驱动误差反向传播,经多次训练后,得到训练后的分类模型;
步骤c、将待分类的社交媒体主题评论数据按步骤a进行预处理,并向量化,然后将向量化的数据输入到步骤b中训练后的分类模型中,输出得到该社交媒体主题评论数据的预测的分类结果,即该社交媒体主题评论数据的细粒度分类。
优选的是,步骤a的预处理包括数据清洗和token化,数据清洗为删除URL以及用户提及和表情字符,token化为去掉特殊字符和停用词。
优选的是,步骤a中采用skip-gram模型进行向量化。
优选的是,步骤b中向量化的文本语料数据复制多份分别作为多个输入量同时输入至多头输入结构层,多头输入结构层对各输入量进行位置编码,并将位置编码拼接融合至各输入量中,然后输入至LSTM层。
优选的是,位置编码的拼接融合公式如公式(1)所示:
input(x)=add(embedding(x),position(x)) (1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210356737.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于处理用户设备入网的用户设备和方法
- 下一篇:一种声光电组合诱虫及灭虫系统