[发明专利]一种端到端的藏文La格浅层语义分析方法有效
申请号: | 202210602138.3 | 申请日: | 2022-05-30 |
公开(公告)号: | CN115510869B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 班玛宝;才让加;张瑞;慈祯嘉措;桑杰端珠;杨毛加 | 申请(专利权)人: | 青海师范大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/045;G06N3/0442;G06N3/047;G06N3/048 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 李英 |
地址: | 810016 青*** | 国省代码: | 青海;63 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 端到端 藏文 la 格浅层 语义 分析 方法 | ||
1.一种端到端的藏文La格浅层语义分析方法,其特征在于:包括以下步骤:
一、将输入以词为单元的特征序列和对应的标记序列映射成低维实值向量;
二、在LSTM的垂直方向上装置门控高速连接机制GM,采用BiLSTM学习输入句子的时序特征和上下文语义信息;GM包含对单元内部输入和输出的线性连接,使信息可以通畅地在不同层之间传播;
三、使用softmax计算每一时刻语义标签的局部归一化分布,以供输出层进行约束解码;
四、使用维特比算法进行解码时通过强制执行设定的BIO和La格浅层语义标注约束,规范输出语义标签之间的结构关系;
La格浅层语义标注约束包括:
唯一语义标签:语义标签A0、A1、A2和专有标签对于每个La格句型最多只能出现一次;
受限语义标签:拒绝任何专有标签交叉出现在不同句型中;
顺序语义标签:拒绝任何专有标签AM-Li序列出现在在另一个专有标签之前的情况;
延续语义标签:延续语义标签仅在其基本语义标签在其之前实现时才可以存在;
其中,业格句的专有标签为:AM-Bas、AM-L1,共有标签为:A0、A1、A2、AM-TMP、AM-DGR;
为格句的专有标签为:AM-PRP、AM-L2,共有标签为:AM-CAU、AM-Com、AM-ADV;
依格句的专有标签为:AM-Pla、AM-L3;
同格句的专有标签为AM-Res、AM-L4;
时格句的专有标签为:AM-Tim、AM-L5。
2.根据权利要求1中所述的一种端到端的藏文La格浅层语义分析方法,其特征在于:步骤一中,用表示已训练好的GloVe词向量,用V表示词汇表,用C∈{0,1}表示标记集合,则最原始的输入序列{w1,w2,…,wT}和标记序列{m1,m2,…,mT}通过查找表lookuptable映射成低维实值向量e(wt)和e(mt),其中wt∈V和对应标记mt∈C;至此,可将向量e(wt)和e(mt)拼接成xl,t作为LSTM第一层的输入:
xl,t=[e(wt),e(mt)]
其中,xl,t是第l层t时刻到LSTM的输入,此处l=1,t=[1,T]。
3.根据权利要求1中所述的一种端到端的藏文La格浅层语义分析方法,其特征在于:步骤二中,使用第一个LSTM正向处理输入的句子,然后以这层的输出作为下一层的输入进行反向处理,为提高时序特征的学习能力和充分获取各个时刻的上下文语义信息奠定基础;LSTM的定义如下:
hl,t=ol,t⊙tanh(cl,t)
其中,δl代表第l层LSTM的方向,当δl=-1时LSTM方向为正向,当δl=1时方向为反向;
为了以交织模式堆叠LSTM,按以下方式排列特定层的输入xl,t和方向参数δl:
输入向量xl,t是字符wt的单词嵌入和表示wt的单词是否为给定谓词的二元特征(t=v)的嵌入的拼接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青海师范大学,未经青海师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210602138.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于车辆的车窗和用于制造所述车窗的方法
- 下一篇:电池包和包括电池包的车辆