[发明专利]一种评论情感原因三元组抽取方法在审
申请号: | 202110973766.8 | 申请日: | 2021-08-24 |
公开(公告)号: | CN113779245A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 宋大为;宋昊霖;华玲誉 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/30;G06N3/04;G06Q30/02;G06Q50/00 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 评论 情感 原因 三元 抽取 方法 | ||
1.一种评论情感原因三元组抽取方法,其特征在于,首先,提出情感-原因-情感类型的情感原因三元组:从文档中同时抽取出情感句、与情感句对应的原因句和情感类型;之后,利用深度学习模型和双仿射注意力机制建模情感句、原因句以及情感类型之间的联系,得到情感原因三元组的三维概率矩阵;根据三维概率矩阵训练模型,以任意文档作为输入,抽取出情感原因三元组;最后,将用户要表达情感的对象与所有情感原因三元组中的句子进行关键词匹配,若句子中存在对应关键词,则表示此情感原因三元组与关键词相关。
2.如权利要求1所述的一种评论情感原因三元组抽取方法,其特征在于,具体包括以下步骤:
步骤1:设计抽取情感原因三元组的模型,包括以下步骤:
步骤1.1:输入数据集中的每个文档,输出标注情感原因三元组后的数据集;其中,数据集包括训练集和测试集;
步骤1.2:从步骤1.1输出的数据集中,选择训练文档W;
每个W中包含n个句子S,每个句子S中包含m个词C;其中,文档W个数的范围为1到K,共K个训练文档;
步骤1.3:对步骤1.2得到的训练文档的句子进行编码,得到句向量sn;
步骤2:利用双仿射注意力机制建模情感句、原因句和情感类型之间的联系,得到情感原因三元组的三维概率矩阵,包括以下子步骤:
步骤2.1:利用两个全连接网络,对步骤1中得到的句向量sn进行维度压缩,除去冗余信息,分别得到情感句向量和原因句向量
步骤2.2:利用双仿射注意力机制建模情感句向量原因句向量和情感类型之间的联系;
采用式5得到一个三维的矩阵Up,q,r,三个维度分别表示情感句、原因句和情感类型:
其中,与为可训练参数,分别为第p个情感句向量、第q个原因句向量;T表示转置操作;
矩阵Up,q,r中,每一位经过sigmoid函数后,输出0到1的值,表示此位是情感原因三元组的概率,sigmoid函数如式6所示:
其中,sigmoid(·)表示归一化,将矩阵U中每一位归一化为0到1的值,以此来表示概率;为最终得到的情感三维矩阵中第p个情感句、第q个原因句、第r个情感类型需要抽取的三元组的概率值;
此处,设置一个阈值0.5,凡是大于该阈值的概率值,认为是需要抽取出的情感原因三元组,反之不需要抽取;
步骤3:根据步骤2得到的三维概率矩阵训练模型,以任意文档作为输入,抽取出情感原因三元组,包括以下步骤:
步骤3.1:采用二元交叉熵衡量真实概率Yp,q,r与模型预测概率之间分布的差异性,并以此为模型的目标函数L进行训练,如式7所示:
其中,真实概率Yp,q,r是指情感原因三元组标签的概率,是情感原因三元组则概率为1,否则为0;∑p,q,r表示对不同p、q、r二元交叉熵结果的加和;
步骤3.2:使用批量随机梯度下降方法,对步骤3.1的目标函数进行优化,对训练集中的所有训练样本进行批量迭代训练,输出训练好的情感原因三元组抽取模型;
步骤3.3:使用步骤3.2中训练好的抽取模型,输入任意文档,输出抽取出的情感原因三元组;
步骤4:以用户要表达情感的对象的相关文档作为输入,利用该对象不同方面的关键词,匹配所有情感原因三元组中的句子;若句子中存在对应关键词,则表示此情感原因三元组与关键词相关。
3.如权利要求2所述的一种评论情感原因三元组抽取方法,其特征在于,步骤1.1包括以下步骤:
首先,对数据集中每个文档中的句子进行分词,词与词之间用空格隔开;
然后,对数据集中的每个文档,标注出所包含的情感原因对;
最后,对数据集中每个文档中的情感句,标注出其情感类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110973766.8/1.html,转载请声明来源钻瓜专利网。