[发明专利]一种融合先验知识的蒙古语文本情感分析方法在审
申请号: | 202110842205.4 | 申请日: | 2021-07-26 |
公开(公告)号: | CN113723084A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 仁庆道尔吉;刘馨远;张倩;张文静;张毕力格图;郎佳珺;萨和雅;吉亚图 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/284;G06F40/44;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 武汉菲翔知识产权代理有限公司 42284 | 代理人: | 程玉红 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 先验 知识 蒙古语 文本 情感 分析 方法 | ||
1.一种融合先验知识的蒙古语文本情感分析方法,其特征在于,包括如下步骤:
步骤1:对含有表情符的蒙古语情感文本语料库进行预处理;
步骤2:BPE分词技术对蒙古语语料进行分词;
步骤3:将经过预处理得到的词转换为动态词向量;
步骤4:分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识;
步骤5:将融合先验知识的模型在大规模的语料进行预训练,得到融合先验知识模型的蒙古语文本情感分析模型;
步骤6:将融合先验知识的蒙古语文本情感分析模型的分析结果与单一网络分析方法的分析结果就准确率、精确率、召回率和F1值进行对比和评价,以达到提高蒙古语文本情感分析性能的目的。
2.根据权利要求1所述融合先验知识的蒙古语文本情感分析方法,其特征在于,所述步骤1中,预处理是对所获取的语料进行数据清洗,解决数据源问题,比如原始数据错误,脏乱差。预处理包括移除用户名信息、移除URLS、移除特殊字符等步骤。
3.根据权利要求2所述融合先验知识的蒙古语文本情感分析方法,其特征在于,采用字节对编码技术(BPE)分词技术对预处理的语料信息进行切分操作,利用GloVe模型将文本语料和表情符训练生成对应的词向量,并并使用词向量结果贪心地发现未登录词,修正切分结果。
4.根据权利要求3所述融合先验知识的蒙古语文本情感分析方法,其特征在于,所述利用GloVe训练生成词向量的目标函数J(W)为:
其中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示词wj的词向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:
其中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次数,Xi=∑jXij;
对于原分词结果Y=W1W2…Wm,从头开始比较当前词wi的词向量Wi与下一个词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:
若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组合后的词向量为二者加和归一化的结果,计算公式为:
Wi=null
利用该新词的词向量继续进行贪心地匹配,直到句子结束,得到修正后的切分结果其中m为原分词结果Y中的词向量的个数,n为修正后的切分结果中的词向量的个数。
5.根据权利要求1所述融合先验知识的蒙古语文本情感分析方法,其特征在于,所述步骤4中,分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识。其中,文本情感词典包含happiness、like、sadness、anger四种情感的情感词语,如,喜悦、高兴、开心等词汇属于文本情感库里happiness的情感类别,喜欢、想要等词汇属于文本情感库里like的情感类别,等表情符属于表情符情感词典库里happiness的情感类别。
6.根据权利要求5所述融合先验知识的蒙古语文本情感分析方法,其特征在于,所述步骤5中,使用融合先验知识的预训练模型Convolutional Neural Net-works And GatingMechanisms,新的门控Tanh-ReLU单元可以根据给定的方面或实体选择性地输出情感特征。该架构比现有模型中使用的关注层简单得多。其次,我们模型的计算在训练过程中可以很容易地并行化,因为卷积层不像LSTM层那样具有时间依赖性,门控单元也独立工作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110842205.4/1.html,转载请声明来源钻瓜专利网。