[发明专利]一种基于深度神经网络的藏文分词方法及装置在审
| 申请号: | 201811614940.4 | 申请日: | 2018-12-27 |
| 公开(公告)号: | CN109960782A | 公开(公告)日: | 2019-07-02 |
| 发明(设计)人: | 赵生捷;陈梦竹;杨恺 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/22;G06F17/27;G06F16/332;G06N3/08 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 蔡彭君 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分词 藏文 神经网络 基本单位 音节序列 隔音符号 音节 分词结果 序列标记 序列输入 词识别 成功率 紧缩 文本 | ||
1.一种基于深度神经网络的藏文分词方法,其特征在于,包括:
步骤S1:接收原始藏文文本,并基于其中的隔音符号音节的切分得到音节序列;
步骤S2:将得到的音节序列输入紧缩词识别模型,得到分词的基本单位序列;
步骤S3:将分词的基本单位序列输入至基于深度神经网络的藏文分词模型中进行处理,最终得到带有序列标记的单位序列,作为分词结果。
2.根据权利要求1所述的一种基于深度神经网络的藏文分词方法,其特征在于,所述步骤S2具体包括:
步骤S21:将得到的音节序列输入紧缩词识别模型,识别出音节序列中的紧缩词;
步骤S22:判断各紧缩词是否为格助词,若为是,则将其作为分词标注处;
步骤S23:根据得到的各分词标注处对音节序列进行分词,得到分词的基本单位序列。
3.根据权利要求1所述的一种基于深度神经网络的藏文分词方法,其特征在于,所述基于深度神经网络的藏文分词模型包括:
向量嵌入层,用于将得到的各分词的基本单位序列中每个字符转换为向量;
BiLSTM网络层,与向量嵌入层连接,用于基于转换得到的向量形式的分词的基本单位序列输出分数矩阵;
CRF层,与BiLSTM网络层连接,用于根据BiLSTM网络层输出的分数矩阵得到带有序列标记的单位序列,作为分词结果。
4.根据权利要求3所述的一种基于深度神经网络的藏文分词方法,其特征在于,所述CRF层的处理过程具体包括:
步骤S31:对于一个藏文语句X(x1,x2,…,xn),获取其整体得分:
其中:s(X,y)为整体得分,x1,x2,…,xn为藏文语句X中各字符转换得到的向量,T为转换分数矩阵,P为BiLSTM的输出分数矩阵,为标记yi转换到标记yi+1的分数,为第i个字符被标为第yi个标记的得分,n为藏文语句X中的字符个数,y为X的预测标记序列y=(y1,y2,…,yn);
步骤S32:计算y的概率,并得到最大化正确标记序列的对数概率:
其中:p(y|X)为y的概率,为X的其中一种可能标记序列,Yx为X的所有可能标记序列;
步骤S33:解码时,我们将得到最大分数的序列预测为输出序列:
其中:y*为预测序列。
5.一种基于深度神经网络的藏文分词装置,其特征在于,包括存储器、处理器,以及存储于存储器中并由所述处理器执行的程序,所述处理器执行所述程序时实现以下步骤:
步骤S1:接收原始藏文文本,并基于其中的隔音符号音节的切分得到音节序列;
步骤S2:将得到的音节序列输入紧缩词识别模型,得到分词的基本单位序列;
步骤S3:将分词的基本单位序列输入至基于深度神经网络的藏文分词模型中进行处理,最终得到带有序列标记的单位序列,作为分词结果。
6.根据权利要求5所述的一种基于深度神经网络的藏文分词装置,其特征在于,所述步骤S2具体包括:
步骤S21:将得到的音节序列输入紧缩词识别模型,识别出音节序列中的紧缩词;
步骤S22:判断各紧缩词是否为格助词,若为是,则将其作为分词标注处;
步骤S23:根据得到的各分词标注处对音节序列进行分词,得到分词的基本单位序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811614940.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种更新全球作物总产量栅格数据的方法
- 下一篇:一种文档自由标注的方法及系统





