[发明专利]一种基于机器阅读理解范式的方面级情感分析方法及系统有效
申请号: | 202110378141.7 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113157920B | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 桂小林;李德福;顾迎捷;徐盼;滕晓宇;戴慧珺 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 阅读 理解 范式 方面 情感 分析 方法 系统 | ||
1.一种基于机器阅读理解范式的方面级情感分析方法,其特征在于,包括以下步骤:
S1、对方面级情感分析的原始数据集进行数据预处理,从原始数据集中提取方面级情感分析数据,原始数据集为xml格式文件,提取的方面级情感分析数据包括段落text、方面类别category和情感极性polarity;
S2、根据机器阅读理解领域中的多项选择范式,对步骤S1提取出的方面级情感分析数据构造成具有段落C、问题Q、选项O和答案A形式的多项选择问答对,具体为:
S201、通过给定的数据训练一个预测器f,将段落C和问题Q作为输入,返回一个对应的答案A,段落与段落相关的问题问题Q对应的答案为A,m和n分别为段落C的长度和问题Q的长度,所有的w都属于预先定义的词典v;
S202、采用多项选择式子任务,给定段落、问题、选项,通过模型的训练,选取包含正确答案的选项;多项选择式中有段落C、问题Q、选项O和答案A;
S203、对提取出的方面级情感分析数据进行MRC范式构造,分为两种构造方式,分别为对问题Q不进行扩展和对问题Q进行扩展,在构造方式为对问题不进行扩展中,段落C为原数据集中的段落text,问题Q为原数据集中的方面类别category,选项O共包括ABCD四种情感极性类别,答案A为正确的情感极性;在构造方式为对问题Q进行扩展中,问题Q为In aspectof Category,what do you think of the experience?句式,Category为数据集中的方面类别;
S3、构建机器阅读理解深度神经网络模型,机器阅读理解深度神经网络模型包括嵌入层、编码融合层、全连接解码层以及Softmax输出层;
S4、将步骤S2构造的多项选择问答对作为步骤S3建立的深度神经网络模型的输入,深度神经网络模型的输出为方面类别对应各个情感极性的概率值,将概率最大的情感极性作为对应方面类别的情感极性,实现情感极性判定。
2.根据权利要求1所述的方法,其特征在于,步骤S3中,嵌入层使用预训练模型Bert。
3.根据权利要求1所述的方法,其特征在于,步骤S3中,编码融合层使用多头注意力模型,多头注意力模型的注意力分数为Q,K,V均为嵌入层的输出,T为转置,dK为K的维度,函数为归一化指数函数。
4.根据权利要求3所述的方法,其特征在于,多头注意力模型的总分数为:
MultiHead(Q,K,V)=Concat(head1,…,headh)WO
其中,headi为第i头注意力分数,Concat函数为将h头注意力分数进行拼接,WO用于线性变换。
5.根据权利要求1所述的方法,其特征在于,步骤S4中,多项选择问答输入到深度神经网络模型中的格式为:
[CLS]段落C[SEP]问题Q+选项O[SEP]
其中,[CLS]和[SEP]为预训练模型Bert固定的输入标签,输入到预训练模型Bert中的第一段文本用[CLS]标记,其余文本用[SEP]标记。
6.一种基于机器阅读理解范式的方面级情感分析系统,其特征在于,包括:
提取模块,对方面级情感分析的原始数据集进行数据预处理,从原始数据集中提取方面级情感分析数据,原始数据集为xml格式文件,提取的方面级情感分析数据包括段落text、方面类别category和情感极性polarity;
构造模块,根据机器阅读理解领域中的多项选择范式,对提取模块提取出的方面级情感分析数据构造成具有段落C、问题Q、选项O和答案A形式的多项选择问答对,具体为:
通过给定的数据训练一个预测器f,将段落C和问题Q作为输入,返回一个对应的答案A,段落与段落相关的问题问题Q对应的答案为A,m和n分别为段落C的长度和问题Q的长度,所有的w都属于预先定义的词典v;采用多项选择式子任务,给定段落、问题、选项,通过模型的训练,选取包含正确答案的选项;多项选择式中有段落C、问题Q、选项O和答案A;对提取出的方面级情感分析数据进行MRC范式构造,分为两种构造方式,分别为对问题Q不进行扩展和对问题Q进行扩展,在构造方式为对问题不进行扩展中,段落C为原数据集中的段落text,问题Q为原数据集中的方面类别category,选项O共包括ABCD四种情感极性类别,答案A为正确的情感极性;在构造方式为对问题Q进行扩展中,问题Q为In aspect of Category,what do you think of the experience?句式,Category为数据集中的方面类别;
网络模块,构建机器阅读理解深度神经网络模型,机器阅读理解深度神经网络模型包括Bert词嵌入层、多头注意力编码融合层、全连接解码层以及Softmax输出层;
判断模块,将构造模块构造的多项选择问答对作为网络模块建立的深度神经网络模型的输入,深度神经网络模型的输出为方面类别对应各个情感极性的概率值,将概率最大的情感极性作为对应方面类别的情感极性,实现情感极性判定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110378141.7/1.html,转载请声明来源钻瓜专利网。