[发明专利]泰语音节切分的方法及装置在审

申请号：	201711204590.X	申请日：	2017-11-27
公开（公告）号：	CN107967259A	公开（公告）日：	2018-04-27
发明（设计）人：	张睦	申请（专利权）人：	传神语联网网络科技股份有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06K9/62
代理公司：	北京康盛知识产权代理有限公司11331	代理人：	李晓芳
地址：	430000 湖北省武汉市东湖开发区光谷软件***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	泰语音节切分方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信息检索技术领域，特别涉及泰语音节切分的方法及装置。

背景技术

泰语也称傣语(Dai language)，是傣泰民族的语言，属于东亚语系/汉藏语系的一种语言。全球有约6800万人口使用泰语。泰语的文本中，词与词之间不用标点，不留空格，一句话从头到尾连续不断的拼写，一般，以空两个字母的间隔或句子当中的小停顿表示一个句子。然而，作为一个在语法中被明确定义的基本单元，文本中的泰语音节和音节之间却没有明显的空格存在。因此，泰语文本的处理操作首先得要对泰语文本进行音节的切分。这项切分处理工作为泰文的词法，句法，以及更复杂的自然语言处理算法任务提供了重要的基础。

目前，可根据泰国学者对音节构成的语法模式进行归纳得出的200多条的规则对泰文进行音节切分。但是，由于语法规则复杂且难以理解，大量的规则之间还可能存在冲突，使得泰文的音节切分速度比较慢，而且准确性也不是很高。

发明内容

本发明实施例提供了一种泰语音节切分的方法及装置。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本发明实施例的第一方面，提供了一种泰语音节切分的方法，包括：

对从泰语语料库中获取的待处理泰语文本进行预处理，确定非泰语字符串，以及每个泰语字符的位置音节类型信息；

对所述待处理泰语文本中每个字符之间的边界进行打标签，其中，由至少一个泰语音节字符组成的边界标注为待切分标识；

提取所述待处理泰语文本中的每个待切分音节，其中，所述待切分音节由连续出现n次的泰语字符，以及一个所述待切分标识组成，n为正整数；

根据所述待切分音节中泰语字符的位置音节类型信息，采用马尔科夫链概率语音模型，确定每个待切分音节的切分概率；

根据每个待切分音节及其对应的切分概率，切分设定待处理泰语句子中的音节。

本发明一实施例中，所述对待处理泰语文本进行预处理，确定非泰语字符串，以及每个泰语字符的位置音节类型信息包括:

对所述待处理泰语文本中的非泰语字符串进行识别；

根据保存的泰语字符与位置音节类型信息之间的对应关系，确定所述待处理泰语文本中每个泰语字符的位置音节类型信息，其中，所述位置音节类型信息是根据泰语的基本语法规则生成的，包括音节类型信息和位置信息。