[发明专利]藏文分词信息处理方法、系统、存储介质、终端及应用在审
申请号: | 202110380044.1 | 申请日: | 2021-04-09 |
公开(公告)号: | CN113051913A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 刘清民;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06F40/242;G06N3/04;G06N3/08 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100131 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 藏文 分词 信息处理 方法 系统 存储 介质 终端 应用 | ||
本发明属于信息处理技术领域,公开了一种藏文分词信息处理方法、系统、存储介质、终端及应用,所述藏文分词信息处理方法通过词向量、卷积神经网络以及条件随机场对分词语料进行学习,生成藏文单词分界规则,最终实现对藏文的分词。所述藏文分词信息处理系统包括:词向量预处理模块;模型结构搭建模块;词向量训练模块;词向量训练停止判断模块。在藏文中,本发明使用人工神经网络和深度学习解决,通过学习藏文词向量,利用卷积神经网络(CNN)模型和条件随机场(CRF)来预测单词的边界;将句子中的字符序列与手动标记的单词边界的序列进行匹配来迭代地训练网络,获得权重,也就是最后的参数。
技术领域
本发明属于信息处理技术领域,尤其涉及一种藏文分词信息处理方法、系统、存储介质、终端及应用。
背景技术
藏文,指藏族使用的藏语文字。藏语属汉藏语系藏缅语族藏语支,适用地区主要有:中国境内的藏族人,以及尼泊尔、不丹、印度、巴基斯坦境内的一部分人。藏文属于音位文字类的元音附标文字, 关于藏文的起源有两种说法。有学者认为是吐蕃时代公元7世纪由国王松赞干布派遣藏族语言学家吞弥·桑布扎到北印度学习梵文,回国后引用梵文字母创制的。雍仲本教则认为藏文是从象雄文演变而来。
英语(English)属于印欧语系中日耳曼语族下的西日耳曼语支,由古代从欧洲大陆移民大不列颠岛的盎格鲁、撒克逊和朱特部落的日耳曼人所说的语言演变而来,并通过英国的殖民活动传播到世界各地。
藏文与英语不同,藏文中的单词通常是在一起写的,没有单词边界标记。而英语中的单词的组成字母是独立的,有边界标记。对于藏文来说,分词是建立自然语言处理应用的首要任务之一,如主题分类、情感分析、文档相似性和机器翻译等。
对于计算机来说,处理没有单词边界标记的文字、文本有一定难度,现有技术采用人工神经网络和深度学习解决;卷积神经网络(CNN)是一种特殊的神经网络,是目前NLP中最成功的模型之一;通过学习藏文词向量(word2vec),利用CNN模型和条件随机场(CRF)来预测单词的边界;将句子中的字符序列与手动标记的单词边界的序列进行匹配来迭代地训练网络,获得权重,也就是最后的参数。由于公开的开放语料较少,语料制作成本高,目前只是在有限的参数下进行实验,后期可以采用不同参数进行实验,导致现有技术存在的缺点:(1)有待于提升训练语料数。(2)参数的选取有优化空间。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有技术使用人工神经网络和深度学习处理没有单词边界标记的文字、文本存在公开的开放语料较少,语料制作成本高。
(2)现有技术使用人工神经网络和深度学习处理没有单词边界标记的文字、文本存在参数的选取空间存在在有限的参数下进行实验,后期可以采用不同参数进行实验。
解决以上问题及缺陷的难度为:人工标记分词语料成本过高;参数选取需要经过多次实验才能确定较优版本。
发明内容
针对现有技术存在的问题,本发明提供了一种藏文分词信息处理方法、系统、存储介质、终端及应用。
本发明是这样实现的,一种藏文分词信息处理方法,所述藏文分词信息处理方法通过词向量、卷积神经网络以及条件随机场对分词语料进行学习,生成藏文单词分界规则,最终实现对藏文的分词。首先通过word2vec,学习到藏文字词的表示方法通过已有的分词语料,以及学习到的词向量,利用卷积神经网络和条件随机场,学习到藏文在某处分词的可能性,在可能性较大的地方对藏文进行分词。
进一步,所述藏文分词信息处理方法通过学习藏文词向量word2vec,利用卷积神经网络CNN模型和条件随机场CRF预测单词的边界。
进一步,所述藏文分词信息处理方法将句子中的字符序列与手动标记的单词边界的序列进行匹配来迭代地训练网络,获得权重,也就是最后的参数。
进一步,所述藏文分词信息处理方法具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110380044.1/2.html,转载请声明来源钻瓜专利网。