[发明专利]一种长尾分布场景下的方面类别识别方法及系统在审
申请号: | 202111681644.8 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114297390A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 陆恒杨;方伟;聂玮;孙俊;吴小俊 | 申请(专利权)人: | 江南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06F40/284;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 张勇 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 长尾 分布 场景 方面 类别 识别 方法 系统 | ||
本发明公开了一种长尾分布场景下的方面类别识别方法及系统,属于自然语言处理技术领域。本发明的方法基于一种在长尾分布场景下的的方面类别识别系统,该系统聚焦数据长尾分布特点,首先得到句子细粒度方面特征向量,提供额外的上下文方面级语义信息;然后加入一种基于长尾分布的融合上下文方面级语义信息的注意力机制,加强模型捕捉与方面类别最相关的信息的能力,同时提出一种改进的分布平衡损失函数缓解长尾多标签文本分类任务中的标签共现以及负类优势的问题,有效地提升了具有长尾分布特点的方面类别识别效果。
技术领域
本发明涉及一种长尾分布场景下的方面类别识别方法及系统,属于自然语言处理技术领域。
背景技术
方面类别识别(Aspect Category Detection,ACD)作为方面级情感分析重要的子任务之一,旨在从一组预先定义的方面类别中检测出句子中包含的方面类别。方面类别识别是整个方面级情感分析的基础任务。情感分析在生活的各个领域有着广泛的应用,例如针对用户在社交媒体、餐厅评价、网上购物等表达的对于各种话题的看法的情感分析,可以帮助用户有更好的消费体验,同时可以帮助商家了解市场需求。
然而在实际研究中,方面类别分布往往呈现不平衡甚至是长尾分布的特点,使得模型无法充分提取尾部方面类别的特征,这为方面类别识别任务带来极大的挑战。
一些现有的工作利用经典机器学习模型或深度学习模型的解决这个问题。例如,Ghadery,E等人(Ghadery,E.,et al.,MNCN:A Multilingual Ngram-Based ConvolutionalNetwork for Aspect Category Detection in Online Reviews.2019.33:p.6441-6448.)以多语言词嵌入作为网络的输入,使用深度卷积神经网络提取特征,然后使用不同的全连接层分别学习和识别不同的方面类别。Hu,M等人(Hu,M.,et al.,CAN:ConstrainedAttention Networks for Multi-Aspect Sentiment Analysis.2018.)引入稀疏正则化和正交正则化来计算多个方面的注意力权重。这使得多个方面的注意力权重集中在不同部分的同时,每个方面的注意力权重只集中在几个词上。Movahedi,S.等人(Movahedi,S.,etal.,Aspect Category Detection via Topic-Attention Network.2019.)提出了一个主题注意网络模型,该模型可以通过关注句子的不同部分来检测给定句子的方面类别。Li,Y.等人(Li,Y.,et al.Multi-Instance Multi-Label Learning Networks for Aspect-Category Sentiment Analysis.in Proceedings of the 2020 Conference onEmpirical Methods in Natural Language Processing(EMNLP).2020.)提出一种多实例多标签学习的方面情感分析的联合模型,其中基于注意力的ACD为不同的方面类别产生有效的注意力权重。
然而,采集自实际场景中的数据分布往往是不平衡的,甚至是呈现长尾分布的特点,即少数的类别(也称为头部类)占据了大部分数据,而大多数的类别(也称为尾部类)样本很少。而上述的现有方法均忽略了在训练模型时这样的样本数量差距。不同类别的训练样本数目差距过大会使模型对于样本数有限的方面类别的识别无法取得很好的效果。方面类别不均衡,甚至造成的长尾分布会对学习过程产生影响,导致识别效果差。
发明内容
为了解决目前存在的长尾分布导致的,不同类别的训练样本数目差距过大会使模型对于样本数有限的方面类别的识别无法取得很好的效果问题,本发明提供了一种长尾分布场景下的方面类别识别方法及系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111681644.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:燃气灶点火电路
- 下一篇:一种超高层自升降附着悬挑式层间物料转运平台