[发明专利]一种基于深度神经网络的藏文分词方法及装置在审
| 申请号: | 201811614940.4 | 申请日: | 2018-12-27 |
| 公开(公告)号: | CN109960782A | 公开(公告)日: | 2019-07-02 |
| 发明(设计)人: | 赵生捷;陈梦竹;杨恺 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F17/22;G06F17/27;G06F16/332;G06N3/08 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 蔡彭君 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分词 藏文 神经网络 基本单位 音节序列 隔音符号 音节 分词结果 序列标记 序列输入 词识别 成功率 紧缩 文本 | ||
本发明涉及一种基于深度神经网络的藏文分词方法及装置,其中方法包括:步骤S1:接收原始藏文文本,并基于其中的隔音符号音节的切分得到音节序列;步骤S2:将得到的音节序列输入紧缩词识别模型,得到分词的基本单位序列;步骤S3:将分词的基本单位序列输入至基于深度神经网络的藏文分词模型中进行处理,最终得到带有序列标记的单位序列,作为分词结果。与现有技术相比,本发明具有等分词成功率高的优点。
技术领域
本发明涉及自然语言处理领域,尤其是涉及一种基于深度神经网络的藏文分词方法及装置。
背景技术
随着信息时代的发展,国内外对于语言文字信息化处理技术的研究工作也在不断深入。藏文作为一种历史悠久的古老语言,用藏文记载着的古籍著述和经典文献浩如烟海。而藏文字能否跨入信息时代的关键在于能否成功解决藏文信息处理技术问题。藏文分词是藏文信息处理中最基础且必不可少的重要环节,一段藏文文字只有在经过分词之后,才能让计算机对这些文字序列进行处理。因此,藏文分词的研究结果将直接影响着后续诸如藏语语义理解、藏文信息检索、藏语机器翻译、藏语语音识别等技术的应用和发展。
分词简单来说就是按照一定的标准或规则将系列连续的字符重新组合成词序列的过程。众所周知,在英文中,单词之间以空格作为自然的分界符,因此在词的处理理解上也相对直观。而藏文形式如中文一致,词与词之间并没有任何形式的分界符,这便给中文、藏文等无间隔语言文字信息处理增加了许多困难。对于中文来说,目前国内已有许多研究机构、学者在该自然语言处理领域开发出较多成熟的系统,如哈尔滨工业大学的语言技术平台LTP,复旦大学自然语言处理java开源包FudanNLP等,这些公开的系统不断推动的中文语言处理的进步与发展。反观藏文信息处理研究,基础相对薄弱,虽然有不少公开发表的研究成果文章,但公开可用的系统寥寥无几,这在一定程度上制约了藏文信息处理的发展。
对于分词这一任务来说,如果仅仅通过人工核对的方式进行分词处理,那么这显然是一项庞大而复杂的过程,耗时耗力。然而,自动分词也存在着以下几大难题:1)分词歧义消除;2)未登录词(新词)识别;3)错别字、谐音字规范化;4)分词粒度问题。除此之外,藏文区别于中文还存在着一个特有的语言问题:紧缩词识别问题。在当今飞速发展的信息时代,不少研究人员已经开始利用计算机按照一定的规则和算法来代替人工方式进行藏文自动分词,藏文分词常见的有两大类:1)基于字符串(词典)匹配的方法,如:正向最大匹配法、反向最大匹配法、双向最大匹配法等;该类方法实现简单,但它们高度依赖于词典的质量,且不能有效处理歧义切分问题、未登录词问题及无法进行命名实体的识别。2)基于统计机器学习模型的序列标注的方法,如隐马尔可夫模型(Hidden Markov Model,简称HMM),条件随机场(Conditional Random Field,简称CRF)等,该类方法的准确度优于基于字符串匹配方法,是现阶段最为流行的藏文分词方法,但对于未登录词的识别问题仍旧不能很好的处理,且不方便增加用户词典,速度上会有所损耗,另外,传统机器学习方法需要额外提取特征。
近年深度学习已在自然语言处理领域展现了其独特的优势,深度学习的方法也已为中文分词技术带来了新的思路。因此,我们可以参考借鉴深度学习的中文分词方法,并处理藏文紧缩词现象,形成适用于藏文的自动分词模型。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度神经网络的藏文分词方法及装置。
本发明的目的可以通过以下技术方案来实现:
一种基于深度神经网络的藏文分词方法,包括:
步骤S1:接收原始藏文文本,并基于其中的隔音符号音节的切分得到音节序列;
步骤S2:将得到的音节序列输入紧缩词识别模型,得到分词的基本单位序列;
步骤S3:将分词的基本单位序列输入至基于深度神经网络的藏文分词模型中进行处理,最终得到带有序列标记的单位序列,作为分词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811614940.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种更新全球作物总产量栅格数据的方法
- 下一篇:一种文档自由标注的方法及系统





