[发明专利]藏文分词信息处理方法、系统、存储介质、终端及应用在审
申请号: | 202110380044.1 | 申请日: | 2021-04-09 |
公开(公告)号: | CN113051913A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 刘清民;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06F40/242;G06N3/04;G06N3/08 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100131 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 藏文 分词 信息处理 方法 系统 存储 介质 终端 应用 | ||
1.一种藏文分词信息处理方法,其特征在于,所述藏文分词信息处理方法通过word2vec,学习到藏文字词的表示方法通过已有的分词语料,以及学习到的词向量,利用卷积神经网络和条件随机场,学习到藏文在某处分词的可能性,在可能性较大的地方对藏文进行分词。
2.如权利要求1所述的藏文分词信息处理方法,其特征在于,所述藏文分词信息处理方法通过学习藏文词向量word2vec,利用卷积神经网络CNN模型和条件随机场CRF预测单词的边界。
3.如权利要求2所述的藏文分词信息处理方法,其特征在于,所述藏文分词信息处理方法将句子中的字符序列与手动标记的单词边界的序列进行匹配来迭代地训练网络,获得权重,也就是最后的参数。
4.如权利要求1所述的藏文分词信息处理方法,其特征在于,所述藏文分词信息处理方法具体包括:
第一步,对已经标记好的分词语料进行预处理,通过word2vec学习到藏文的词向量,也就是深度学习中每个词的表示,以及所有分好词的字典,专门加了一个未登录词占位;
第二步,搭建CNN模型,利用CRF计算损失loss;
第三步,利用标记好的藏文以及训练好的词向量通过搭建好的模型进行训练;
第四步,当训练在开发集达到一定的准确率后停止训练,从而得到分词规则。
5.如权利要求4所述的藏文分词信息处理方法,其特征在于,所述搭建好的模型的结构由卷积神经网络加条件随机场组成。
6.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:通过词向量、卷积神经网络以及条件随机场对分词语料进行学习,生成藏文单词分界规则,最终实现对藏文的分词。
7.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:通过词向量、卷积神经网络以及条件随机场对分词语料进行学习,生成藏文单词分界规则,最终实现对藏文的分词。
8.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现权利要求1~5任意一项所述的藏文分词信息处理方法。
9.一种实施权利要求1~5任意一项所述藏文分词信息处理方法的藏文分词信息处理系统,其特征在于,所述藏文分词信息处理系统包括:
词向量预处理模块,用于将已经分好词的藏文通过藏文词向量训练学习到藏文的词向量,保存词向量和字典;
模型结构搭建模块,用于搭建模型结构,模型结构由卷积神经网络加条件随机场组成;
词向量训练模块,用于通过标记好的藏文以及训练好的词向量训练模型;
词向量训练停止判断模块,用于等开发集达到一定的准确率后停止训练。
10.一种计算机信息处理终端,其特征在于,所述计算机信息处理终端用于实现权利要求1~5任意一项所述的藏文分词信息处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110380044.1/1.html,转载请声明来源钻瓜专利网。