[发明专利]融入主题特征的中越跨语言评论情感倾向性分析方法有效
申请号: | 202111078630.7 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113901208B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 余正涛;施忆雪;相艳;黄于欣;线岩团 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F40/30;G06F40/216;G06K9/62;G06F16/951;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融入 主题 特征 中越跨 语言 评论 情感 倾向性 分析 方法 | ||
1.融入主题特征的中越跨语言评论情感倾向性分析方法,其特征在于:所述方法的具体步骤如下:
Step1、通过爬虫技术爬取中文微博评论和越南语推特评论,通过人工对噪声数据进行筛选和标注得到中越跨语言评论数据集,利用主题模型对数据集进行预训练,得到每条句子的主题词分布;
Step2、利用词嵌入分别对中文评论句和越南语评论句进行编码,利用语义特征编码器对评论句进行编码得到评论句的语义特征向量,在每个句子的主题词分布进行主题特征编码,利用选择门控机制将得到的语义特征向量和主题特征向量进行融合将得到的表征用于训练模型;
所述Step2的具体步骤如下:
Step2.1、通过语义特征编码器F对评论进行语义表征,其中语义特征编码器是采用三种不同宽度核的CNN,核的窗口大小为lk,通过卷积操作后得到向量并使用最大池化操作获取到每个卷积特征中的最大值,经过拼接核线性转换得到卷积后的语义特征向量hc∈Rm,其中m为线性变换后的隐层维度;
Step2.2、利用主题特征编码器T进行主题表征,预训练主题模型LDA获取到中文和越南语评论在其最大主题概率下的前K个主题词;将评论的嵌入序列经过平均池化操作,并通过多层感知机进行维度转换,得到其主题特征向量ht′∈Rm;
ht′=MLP(avg_pooling(ht)) (1)
Step2.3、获取到语义特征向量hc和主题特征向量ht′后,由于两种特征的贡献程度并不相同,利用选择门控机制对提取的特征进行统合得到综合表征:
hf=tanh(hc⊙gc+ht′⊙gt) (4)
其中gt是主题门,gc是语义特征门,是可学习的参数,hc,ht′,hf维度均为Rm;门控机制允许网络自适应地学习语义表征和主题表征的重要性,组成评论的综合表征hf∈Rm;
Step2.4、使用对抗学习对两种语言融入主题信息后的特征进行空间下的对齐,对抗学习包括生成器和鉴别器两部分,其中生成器由语义特征编码器F,主题特征编码器T和选择门控机制G融合构成,语言鉴别器Q由多层感知机构成,输出近似为语言分布,获取中文和越南语评论的语义无关信息,其损失函数表示为:
其中hf表示源语言的综合表征,hf’表示目标语言的综合表征;
Step2.5、在得到双语对齐特征后,利用源语言情感标签对情感分类器P进行训练;分类器将源语言综合表征hf输入到一个线性层,转换为一个标签向量vs∈Re,其中e表示标签数量,最后将标签向量vs送入softmax层,得到预测类别ys∈{0,1}:
ys=softmax(W(l)vs+b(l)) (6)
其中W(l)∈Re,b(l)∈Re是最后一个线性层的待训练参数,情感分类器的损失采用交叉熵损失其中ys为源语言的真实标签;
Step2.6、最终模型的整体目标函数由鉴别器损失和情感分类器损失构成
通过研究发现,对抗训练时生成器和鉴别器的训练不完全同步,因此在反向传播的过程中利用超参数λ平衡情感分类器P和鉴别器Q对生成器的影响。
2.根据权利要求1所述的融入主题特征的中越跨语言评论情感倾向性分析方法,其特征在于:所述Step1包括:
Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取中文热点事件评论,从推特上爬取越南语热点事件评论;
Step1.2、对爬取微博和推特评论进行过滤筛选,过滤筛选的方式如下所示:删除#话题#结构、删除微博评论里“@+用户名+回复”这样的结构,且删除无关超链接广告;
Step1.3、采用人工标注,获得中越跨语言评论数据集:以一条帖子为单位进行标注工作,将微博评论句中包含积极态度的句子标注为1,包含消极态度的标注为0,三人盲判取交集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111078630.7/1.html,转载请声明来源钻瓜专利网。