[发明专利]泰语音节切分的方法及装置在审
| 申请号: | 201711204590.X | 申请日: | 2017-11-27 |
| 公开(公告)号: | CN107967259A | 公开(公告)日: | 2018-04-27 |
| 发明(设计)人: | 张睦 | 申请(专利权)人: | 传神语联网网络科技股份有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
| 代理公司: | 北京康盛知识产权代理有限公司11331 | 代理人: | 李晓芳 |
| 地址: | 430000 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 泰语 音节 切分 方法 装置 | ||
技术领域
本发明涉及信息检索技术领域,特别涉及泰语音节切分的方法及装置。
背景技术
泰语也称傣语(Dai language),是傣泰民族的语言,属于东亚语系/汉藏语系的一种语言。全球有约6800万人口使用泰语。泰语的文本中,词与词之间不用标点,不留空格,一句话从头到尾连续不断的拼写,一般,以空两个字母的间隔或句子当中的小停顿表示一个句子。然而,作为一个在语法中被明确定义的基本单元,文本中的泰语音节和音节之间却没有明显的空格存在。因此,泰语文本的处理操作首先得要对泰语文本进行音节的切分。这项切分处理工作为泰文的词法,句法,以及更复杂的自然语言处理算法任务提供了重要的基础。
目前,可根据泰国学者对音节构成的语法模式进行归纳得出的200多条的规则对泰文进行音节切分。但是,由于语法规则复杂且难以理解,大量的规则之间还可能存在冲突,使得泰文的音节切分速度比较慢,而且准确性也不是很高。
发明内容
本发明实施例提供了一种泰语音节切分的方法及装置。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的第一方面,提供了一种泰语音节切分的方法,包括:
对从泰语语料库中获取的待处理泰语文本进行预处理,确定非泰语字符串,以及每个泰语字符的位置音节类型信息;
对所述待处理泰语文本中每个字符之间的边界进行打标签,其中,由至少一个泰语音节字符组成的边界标注为待切分标识;
提取所述待处理泰语文本中的每个待切分音节,其中,所述待切分音节由连续出现n次的泰语字符,以及一个所述待切分标识组成,n为正整数;
根据所述待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个待切分音节的切分概率;
根据每个待切分音节及其对应的切分概率,切分设定待处理泰语句子中的音节。
本发明一实施例中,所述对待处理泰语文本进行预处理,确定非泰语字符串,以及每个泰语字符的位置音节类型信息包括:
对所述待处理泰语文本中的非泰语字符串进行识别;
根据保存的泰语字符与位置音节类型信息之间的对应关系,确定所述待处理泰语文本中每个泰语字符的位置音节类型信息,其中,所述位置音节类型信息是根据泰语的基本语法规则生成的,包括音节类型信息和位置信息。
本发明一实施例中,所述对所述待处理泰语文本中每个字符之间的边界进行打标签包括:
将两个非泰语音节字符之间的边界标注为第一切分标识;
将两个泰语音节字符之间的边界标注为所述待切分标识;
将一个泰语音节字符与一个非泰语字符串之间的边界标注为所述待切分标识。
本发明一实施例中,所述根据所述待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链模型,确定每个待切分音节的切分概率包括:
若所述泰语字符的位置音节类型信息为不在音节末尾的辅音字符时,则包括由第一顺序排列的泰语字符与所述待切分标识的待切分音节对应的切分概率为零;
若所述泰语字符的位置音节类型信息为不在音节起始位置的元音字符时,则包括由第二顺序排列的所述待切分标识与所述泰语字符的待切分音节对应的切分概率为零。
本发明一实施例中,所述根据每个待切分音节及其对应的切分概率,切分设定待处理泰语句子中的音节包括:
根据每个待切分音节及其对应的切分概率,确定所述设定待处理泰语句子中每个预处理音节的预处理切分概率;
根据所述预处理切分概率的大小,对所述设定待处理泰语句子中的音节进行切分。
根据本发明实施例的第二方面,提供一种泰语音节切分的装置,包括:
预处理单元,用于对从泰语语料库中获取的待处理泰语文本进行预处理,确定非泰语字符串,以及每个泰语字符的位置音节类型信息;
标识单元,用于对所述待处理泰语文本中每个字符之间的边界进行打标签,其中,由至少一个泰语音节字符组成的边界标注为待切分标识;
提取单元,用于提取所述待处理泰语文本中的每个待切分音节,其中,所述待切分音节由连续出现n次的泰语字符,以及一个所述待切分标识组成,n为正整数;
概率确定单元,用于根据所述待切分音节中泰语字符的位置音节类型信息,采用马尔科夫链概率语音模型,确定每个待切分音节的切分概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于传神语联网网络科技股份有限公司,未经传神语联网网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711204590.X/2.html,转载请声明来源钻瓜专利网。





