[发明专利]一种基于语义规则的蒙古语反向重构情感分布学习方法在审
申请号: | 202210530295.8 | 申请日: | 2022-05-16 |
公开(公告)号: | CN115146024A | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 苏依拉;杨蕾;朱苏东;司赟;杨佩恒;邱占杰;仁庆道尔吉;吉亚图 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 规则 蒙古语 反向 情感 分布 学习方法 | ||
一种基于语义规则的蒙古语反向重构情感分布学习方法,从预处理后的蒙古语情感语料中提取情感词、程度词和否定词,通过语义规则和词语搭配对情感语料所对应的情绪类型赋予不同的权重;利用情感词典和情感轮对情感语料进行数据增强,生成情感分布;在训练模型中引入反向重构损失,对得到的情感分布数据集进行情感分布预测任务的训练;利用训练好的模型对测试集中的蒙古语情感语料进行情感分布预测。本发明在基于情感词典和情感轮标记增强方法的基础上融入语义规则,使单标记情感数据集增强得到的情感分布数据集更为准确。在模型训练过程中引入反向重构损失,缓解了在正向映射过程中由于维度降低而引起的信息丢失问题,以此来提高模型训练的准确率。
技术领域
本发明属于人工智能技术领域,涉及自然语言处理的情感分析,特别涉及一种基于语义规则的蒙古语反向重构情感分布学习方法。
背景技术
情感分析作为自然语言处理领域的一个重要研究课题,受到研究者越来越多的关注。传统的文本情感分析大多假定每个句子只有一个或多个关联的情绪标签,能够识别目标句子中所包含的情绪种类,但无法定量地回答各个相关情绪的表达程度分别为多少。因此,可以通过情感分布学习来预测一个句子包含的所有情绪的具体占比来解决此问题。
情感分布学习是一种近几年提出的用于处理存在情绪模糊性的多情绪分析模型,其核心思想是通过情感分布记录情感语料在各个情绪上的表达程度,适于处理存在情绪模糊性的情感分析任务。该研究认为文本所表达的情感是由多种基本情绪构成的,每种情绪在同一语料中具有不同的表达强度,每种情绪的表达强度介于0和1之间,所有的基本情绪的表达程度之和为1。所有这些基本情绪在情感语料上的表达程度共同构成一个情感分布。如语料“实物颜色和图片差距太大了!”表达了50%愤怒的情绪,30%厌恶的情绪和20%惊讶的情绪,这些不同的情绪表达程度构成了该语料的一个情感分布。因此,用情感语料和其对应的情感分布进行有监督学习的过程称为情感分布学习。
蒙古语是我国内蒙古自治区蒙古族人民的日常用语,蒙古族人民作为众多网民中的一份子,同样对网络舆情的发展有着重要的影响。由于有关蒙古语的情感分析研究起步较晚,因此,基于蒙古语的情感分布学习是蒙古语情感分析研究的一个新方向。
目前,情感分布学习面临的一个重要困难是缺乏已标注情感分布的文本数据集,由于人工标注成本高,因此可以通过标记增强的方法利用大量已有的单标记情感数据集,将情感语料的情绪标签增强为情感分布。对于蒙古语来说,单标记情感数据集较为匮乏,如何高效利用这仅有的单标记情感数据集来构造情感分布数据集是一个亟待解决的问题。如对于上述语料“实物颜色和图片差距太大了!”,其原始的单标签为“愤怒”,现需要利用标记增强的方法将语料中所要表达的其他情绪以及每种情绪的强度还原出来,从而生成该情感语料对应的情感分布。
基于先验知识的标记增强方法已经广为使用,如基于情感词典的情感分布标记增强方法、基于情感轮和情感词典的文本情感分布标记增强方法等,而基于情感词典的增强方法没有考虑到各种情绪之间的相关性,基于情感轮和情感词典的增强方法虽然考虑到情绪间的相关性,但没有考虑到程度词和否定词对情感词的影响,从而导致最终构造的数据集不够精准。因此,对于蒙古语这样的低资源语言,如何在基于上述的两种先验知识的基础上,引入其他规则使得生成的情感分布数据集更为精确,是数据增强领域值得研究的一个问题。
通常情况下,在模型训练的过程中,由于输入实例特征空间的维数要远高于类别标签空间的维数,这种映射过程中因为维数的降低会造成一些鉴别信息的丢失,对于情感分布学习来说也是如此。因此,在情感分布学习中,如何减少在映射过程中鉴别信息的丢失也是一个值得研究的问题。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于语义规则的蒙古语反向重构情感分布学习方法,在基于情感词典和情感轮标记增强方法的基础上融入语义规则,使单标记情感数据集增强得到的情感分布数据集更为准确。在后续情感分布学习的模型训练过程中,引入反向重构损失,缓解了在正向映射过程中由于维度降低而引起的信息丢失问题,以此来提高模型训练的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210530295.8/2.html,转载请声明来源钻瓜专利网。