[发明专利]藏语数字翻译方法、装置、电子设备及存储介质在审
申请号: | 202110962207.7 | 申请日: | 2021-08-20 |
公开(公告)号: | CN113887248A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 周玉;任子轩 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/242;G06F40/289 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 韩德凯;李晓辉 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 藏语 数字 翻译 方法 装置 电子设备 存储 介质 | ||
本公开提供一种藏语数字翻译方法,包括:生成藏语数字关键词的字典树;基于所述字典树对目标藏语文本进行数字关键词匹配,获取所述目标藏语文本的数字关键词序列;基于所述字典树,对所述目标藏语文本的数字关键词序列的各个数字关键词进行类别划分,将各个数字关键词划分为多个数字关键词类别中的一个类别;基于有穷状态自动机以及所述多个数字关键词类别获取状态转移路径;以及基于所述状态转移路径以及所述目标藏语文本的数字关键词序列的各个数字关键词的对应数值获得所述数字关键词序列的翻译结果。本公开还提供了一种藏语数字翻译装置、电子设备以及可读存储介质。
技术领域
本公开涉及自然语言处理技术领域。本公开尤其涉及一种藏语数字翻译方法、装置、电子设备及存储介质。
背景技术
藏语是一种具有逻辑格语法体系的拼音文字,在我国藏族地区和其他藏传佛教传播地广为使用。
同时藏语也是世界上最复杂的语言文字之一,其复杂性表现在两个方面。一方面,藏语属于汉藏语系藏缅语族,词之间缺少明显标记。另一方面藏语是拼音文字,由30个辅音字母、4个元音字母以及上下加字组成,音节的组成较为复杂。
数字的翻译是文本翻译的一个重要环节,错误的数字识别与翻译会极大影响翻译结果的准确性以及可靠性。
藏语中的数字表达方式包括阿拉伯数字、藏语基本数字构件以及组合词,组合词的基本组成词种类繁多,组成词的组合规则也十分复杂,常见的翻译模型很难准确的识别与翻译这些数字。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了一种藏语数字翻译方法、装置、电子设备及存储介质。
本公开的藏语数字翻译方法、装置、电子设备及存储介质通过以下技术方案实现。
根据本公开的一个方面,提供一种藏语数字翻译方法,包括:
生成藏语数字关键词的字典树,所述字典树包括多个数字关键词类别;
基于所述字典树对目标藏语文本进行数字关键词匹配,获取所述目标藏语文本的数字关键词序列,所述数字关键词序列的数量为一个或者两个以上;
基于所述字典树,对所述目标藏语文本的数字关键词序列的各个数字关键词进行类别划分,将各个数字关键词划分为多个数字关键词类别中的一个类别;
基于有穷状态自动机以及所述多个数字关键词类别获取状态转移路径;以及,
基于所述状态转移路径以及所述目标藏语文本的数字关键词序列的各个数字关键词的对应数值获得所述数字关键词序列的翻译结果。
根据本公开的至少一个实施方式的藏语数字翻译方法,所述多个数字关键词类别包括数位词类别、高级数位词类别、低级数位词类别、基本数词类别、前缀词类别、连接词类别、否定词类别、小数点类别、阿拉伯数字/简写藏语数字类别中的一个或多个。
根据本公开的至少一个实施方式的藏语数字翻译方法,基于所述字典树对目标藏语文本进行数字关键词匹配,获取所述目标藏语文本的数字关键词序列,包括:
以音节为单位对所述目标藏语文本进行文本切分,获得切分后文本;以及,使用所述字典树对所述切分后文本进行匹配,以获得所述数字关键词序列。
根据本公开的至少一个实施方式的藏语数字翻译方法,使用所述字典树对所述切分后文本进行匹配,以获得所述数字关键词序列,包括:
将所述切分后文本输入至所述字典树,获得候选的匹配结果,所述候选的匹配结果包括至少一个候选序列;以及,
基于最长匹配原则从所述候选的匹配结果中确定出数字关键词序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110962207.7/2.html,转载请声明来源钻瓜专利网。