[发明专利]一种融合词根词缀和音标的蒙古语预训练情感分析方法在审
申请号: | 202210252395.9 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114742046A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 苏依拉;杨蕾;杨佩恒;朱苏东;司赟;邱占杰;仁庆道尔吉;吉亚图 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 词根 词缀 音标 蒙古语 训练 情感 分析 方法 | ||
1.一种融合词根词缀和音标的蒙古语预训练情感分析方法,其特征在于,包括如下步骤:
步骤1,对蒙古语语料进行预处理;
步骤2,构建蒙古语BERT预训练模型,其中,在其嵌入层构造词嵌入、词根嵌入、词缀嵌入和音标嵌入;将所述嵌入进行拼接后得到融合嵌入,然后再将融合嵌入与位置嵌入相加,形成模型输入;
步骤3,在所述蒙古语BERT预训练模型中,将对比学习和MLM的融合任务进行预训练;
步骤4,对蒙古语情感语料进行预处理;
步骤5,用训练好的融合词根词缀和音标的蒙古语BERT预训练模型对蒙古语情感语料进行情感分析。
2.根据权利要求1所述融合词根词缀和音标的蒙古语预训练情感分析方法,其特征在于,所述步骤1,预处理包括:
数据清洗和分词。
3.根据权利要求2所述融合词根词缀和音标的蒙古语预训练情感分析方法,其特征在于,所述分词,是将每个蒙古语词汇以词根词缀为单位分开;对于无法切分为词根词缀的词汇则保持原样。
4.根据权利要求1所述融合词根词缀和音标的蒙古语预训练情感分析方法,其特征在于,所述嵌入层由融合嵌入和位置嵌入构成。
5.根据权利要求1所述融合词根词缀和音标的蒙古语预训练情感分析方法,其特征在于,所述嵌入层由融合嵌入、位置嵌入和文本嵌入构成,将融合嵌入与位置嵌入和文本嵌入相加,形成模型输入。
6.根据权利要求1所述融合词根词缀和音标的蒙古语预训练情感分析方法,其特征在于,所述步骤2,词嵌入是在词粒度上进行嵌入;词根嵌入是将分词后的词根进行嵌入;词缀嵌入是将分词后的词缀进行嵌入,对于无法进行词根词缀切分的词汇直接将其原型作为词根和词缀进行嵌入;音标嵌入是将蒙古语词汇对应的国际音标进行嵌入。
7.根据权利要求1所述融合词根词缀和音标的蒙古语预训练情感分析方法,其特征在于,所述步骤2,融合嵌入是将词嵌入、词根嵌入、词缀嵌入和音标嵌入经过CNN后得到的矩阵拼接在一起,经过一个全连接层后得到该蒙古语词汇对应的融合嵌入。
8.根据权利要求1所述融合词根词缀和音标的蒙古语预训练情感分析方法,其特征在于,所述步骤3,利用随机丢弃掩码的方法进行对比学习中正样本的构造,将同一个样本即由嵌入层得到的输入向量分两次输入到所述蒙古语BERT预训练模型中,通过随机丢弃掩码得到两个不同的向量si和s′i,将si和s′i作为正样本对,随机采样一个batch中的另一个输入作为负样本sj,则对比学习的损失函数Li为:
其中ω为超参数,n为一个batch的大小;
cos(si,s′i)为向量si和向量s′i的余弦相似性,其公式为:
cos(si,sj)为向量si和向量sj的余弦相似性,其公式为:
MLM预训练任务采用随机遮蔽一部分token,在随机掩码的过程中有第一比例的词被替换为其他词,第二比例的词不变,剩余的词被替换为掩码[MASK],MLM预训练任务的损失函数为:
其中θ为蒙古语BERT预训练模型中Encoder部分的参数,θ′为MLM预训练任务中在Encoder上所接输出层中的参数,M为被掩码的词集合,mk为被掩码的词,p为样本k的预测概率,|V|为词典大小;
则,融合对比学习的MLM预训练任务的损失函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210252395.9/1.html,转载请声明来源钻瓜专利网。