[发明专利]基于音节切分和词切分联合学习的多任务泰语分词方法有效
| 申请号: | 202110079486.2 | 申请日: | 2021-01-21 | 
| 公开(公告)号: | CN112883726B | 公开(公告)日: | 2021-12-28 | 
| 发明(设计)人: | 线岩团;王悦寒;余正涛;相艳;毛存礼 | 申请(专利权)人: | 昆明理工大学 | 
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/129;G06F16/35;G06N3/08 | 
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 | 
| 地址: | 650093 云*** | 国省代码: | 云南;53 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 音节 切分 联合 学习 任务 泰语 分词 方法 | ||
本发明涉及基于音节切分和词切分联合学习的多任务泰语分词方法。本发明包括:预处理泰语文本数据集;使用窗口化的方式选择泰语字符特征和字符类别特征作为特征输入;之后利用注意力机制获得丰富的上下文特征;最后输出层使用线性变换和Sigmoid函数去预测当前序列中的音节序列标签和词序列标签。本发明采用多任务学习的方式,它能够同时学习同一个句子在音节切分和词切分的序列标签,用音节切分辅助词切分,以提高模型泛化能力。本发明在InterTEST2010数据集上有更高的准确性,与DeepCut泰语分词模型相比,系统运行速度至少提高了1.6倍,为后续的文本分类、信息检索和机器翻译提供了支撑。
技术领域
本发明涉及基于音节切分和词切分联合学习的多任务泰语分词方法,属于自然语言处理领域。
背景技术
在自然语言处理中,泰语分词是文本分类、信息检索和机器翻译等下游任务的基础。主流的泰语分词方法将泰语分词视为基于字符的序列标注问题,其中为每个字符分配一个标签以表示其边界信息。
尽管已有的泰语分词模型取得了很好的进展,但它们考虑的字符信息少,分词准确率低等问题。Kittinaradorn等人针对以上问题提出了一种基于CNN的分词模型-DeepCut,该模型利用字符和字符类别嵌入作为特征输入,使用卷积核宽度为1-12的1d卷积层,进而使用最大池化(Max-pooling)提取来自卷积层特征,全连接层得出相应字符的标签概率,尽管该分词模型取得了较好的性能,但由于模型参数过多,导致分词速度慢。Pattarawat等人在DeepCut的基础上进行相关研究,分析了DeepCut模型缺陷,提出了AttaCut-C和AttaCut-SC泰语分词模型,两个模型在卷积层中都使用了扩张卷积,使分词模型具有较高的并行度。此外,在AttaCut-SC模型中的嵌入层融入泰语音节。相较于DeepCut,AttaCut-SC模型在速度上有很大的提升,但是分词性能有所下降。
发明内容
本发明提供了基于音节切分和词切分联合学习的多任务泰语分词方法,以用于对泰语文本句子分词,解决了由于模型提取的特征不够丰富,模型参数过多导致泰语分词性能较低和分词速度慢的问题。
发明技术方案:基于音节切分和词切分联合学习的多任务泰语分词方法,所述方法的具体步骤如下:
Step1、对从InterBEST2010的泰语语料库中获取的泰语文本进行预处理,为每一个字符匹配它对应的字符类别,给每个字符之间的边界按照音节和词结构特点打标签。
Step2、通过滑动窗口的方式从经过Step1预处理过的数据中依次得到包含21个字符信息的输入,利用字符嵌入和位置嵌入对泰语字符进行特征编码,将获得的字符表征和字符类别表征进行拼接得到新的表征,将新的表征输入Transformer的编码器模型,确定每个字符组成音节或词的概率。
所述步骤Step1的具体步骤为:
Step1.1、针对已经进行词切分的泰语语料,进行过滤筛选,删除泰语文本中的'NE'、'/NE'、'AB'、'/AB'这些字符,之后依次遍历泰语文本中的每一个字符,并为每一个字符匹配它对应的字符类别;
Step1.2、根据泰语文本中用“|”划分的词汇,结合字符在词汇中的位置信息,给每一个字符标注切分标识,一个泰语词汇中第一个字符,标注为1,其它位置的字符,标注为0;
Step1.3、调用PyThaiNLP中的syllable_tokenize方法对词汇进行音节切分,结合字符在音节中的位置信息,给每一个字符标注切分标识,一个泰语音节中第一个字符,标注为1,其它位置的字符,标注为0;
Step1.4、以DataFrame的数据结构形式对Step1.1、Step1.2和Step1.3中得到的字符、字符类别、组成词的字符标识和组成音节的字符标识信息进行存储;
作为本发明的优选方案,所述步骤Step2的具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110079486.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种环件机加工装夹工装
 - 下一篇:一种结合种养生态处理蔬菜加工废水的系统设备
 





