[发明专利]融入主题特征的中越跨语言评论情感倾向性分析方法有效
申请号: | 202111078630.7 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113901208B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 余正涛;施忆雪;相艳;黄于欣;线岩团 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F40/30;G06F40/216;G06K9/62;G06F16/951;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融入 主题 特征 中越跨 语言 评论 情感 倾向性 分析 方法 | ||
本发明涉及融入主题特征的中越跨语言评论情感倾向性分析方法,属于自然语言处理领域。本发明包括:构建中越跨语言评论数据集;利用特征编码器和主题特征编码器对中文和越南语评论进行特征编码,之后利用选择门控机制获得评论句特征,并使用对抗学习缩小中文和越南语语义差距;最后基于中文的情感标签作为输入训练分类器,最终完成在越南语数据集上的情感分类任务。本发明通过将主题信息作为指导信息融入实现越南语评论句的情感分类,从获取到的越南语网络数据中得到情感倾向性,为把握越南民众对公共事件等对象的观点看法提供支撑。
技术领域
本发明涉及融入主题特征的中越跨语言评论情感倾向性分析方法,属于自然语言处理技术领域。
背景技术
互联网的快速发展推动了中越两国交流,对越南语的网络评论进行情感极性分析有助于了解民众对特定事件的态度,是越南语事件观点分析的基础。越南语情感词典、标注数据等资源的稀缺阻碍了其情感分类研究,可通过跨语言情感分类(Cross-LingualSentiment Classification,CLSC)方法,利用中文作为源语言的情感资源,解决越南语作为目标语言的情感分类问题。
目前常用的跨语言情感分类方法有三类。一类是基于双语对齐资源的方法,利用平行语料、情感词典等,将源语言中的情感资源直接迁移到目标语言中,弥补语言之间的语义鸿沟。另一类基于机器翻译技术,将两种语言翻译至同一语言,最终将跨语言情感分类转变为单语任务。还有一类基于特征迁移,将源语言与目标语言的特定语言特征和语言无关特征映射到统一空间中,使得两种语言在语义空间下共享同一表示,以实现情感分类任务。已有方法解决的是两种语言的语义表征对齐问题,而未关注文本所蕴含的主题对于情感分类的作用。实际上,无论是中文还是越南语,用户通常会针对特定主题发表评论,主题信息将有助于推断情感状态
发明内容
本发明提供了融入主题特征的中越跨语言评论情感倾向性分析方法,以用于以利用中文情感标签对越南语评论句进行情感倾向性分析,解决了由于标注数据稀缺以及模型提取的特征不够准确导致情感分析性能较低的问题。
本发明的技术方案是:融入主题特征的中越跨语言评论情感倾向性分析方法,所述方法的具体步骤如下:
Step1、通过爬虫技术爬取新冠疫情期间的中文微博评论和越南语推特评论,通过人工对噪声数据进行筛选和标注得到中越跨语言评论数据集,利用主题模型对数据集进行预训练,得到每条句子的主题词分布;
Step2、利用词嵌入分别对中文评论句和越南语评论句进行编码,利用语义特征编码器对评论句进行编码得到评论句的语义特征向量,在每个句子的主题词分布进行主题特征编码,利用选择门控机制将得到的语义特征向量和主题特征向量进行融合将得到的表征用于训练模型。
作为本发明的优选方案,所述Step1包括:
Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取新冠疫情相关的中文热点事件评论,从推特上爬取新冠疫情相关的越南语热点事件评论;
Step1.2、对爬取微博和推特评论进行过滤筛选,过滤筛选的方式如下所示:删除#话题#结构、删除微博评论里“@+用户名+回复”这样的结构,且删除无关超链接广告;
Step1.3、采用人工标注,获得中越跨语言评论数据集:以一条帖子为单位进行标注工作,将微博评论句中包含积极态度的句子标注为1,包含消极态度的标注为0,三人盲判取交集;
作为本发明的优选方案,所述Step2中:
Step2.1、通过语义特征编码器F对评论进行语义表征,其中语义特征编码器是采用三种不同宽度核的CNN,核的窗口大小为lk,通过卷积操作后得到向量并使用最大池化操作获取到每个卷积特征中的最大值,经过拼接核线性转换得到卷积后的语义表征hc∈Rm,其中m为线性变换后的隐层维度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111078630.7/2.html,转载请声明来源钻瓜专利网。