[发明专利]基于语言相似性的迁移学习平行句对抽取方法及装置有效

申请号：	202110743036.9	申请日：	2021-07-01
公开（公告）号：	CN113627150B	公开（公告）日：	2022-12-20
发明（设计）人：	毛存礼;满志博;余正涛;高盛祥;黄于欣;王振晗	申请（专利权）人：	昆明理工大学
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/242;G06F40/284;G06K9/62;G06N3/04;G06N3/08
代理公司：	昆明人从众知识产权代理有限公司 53204	代理人：	何娇
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语言相似性迁移学习平行抽取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及基于语言相似性的迁移学习平行句对抽取方法及装置，属自然语言处理领域。本发明首先对泰语、老挝语的语料进行预处理，将泰语中的子词和词语基于音标进行替换，得到泰语、老挝语句子的统一表示，然后，基于泰语‑老挝语之间的语言相似性利用数据迁移和模型迁移的方法将汉语‑泰语的平行句对抽取模型迁移到汉语‑老挝语的模型上，最后，利用预训练好的平行句对抽取模型对输入模型的汉语‑老挝语平行句对进行预测。本发明所提方法能够有效地对语言相似性进行建模和利用资源较丰富的汉语‑泰语句对抽取模型迁移到资源较稀缺的汉语‑老挝语句对抽取模型上，从而达到提升汉语‑老挝语句对抽取模型性能目的，具有重要的理论和实际应用价值。

技术领域

本发明涉及基于语言相似性的迁移学习平行句对抽取方法及装置，属于自然语言处理技术领域。

背景技术

利用迁移学习的思想来解决低资源语言语料不足的问题是当前自然语言处理的一个研究热点。利用迁移学习将现有的汉语-泰语平行句对语料迁移到汉语-老挝语中可以取得较好的效果，主要原因是在泰语-老挝语存在一定的语言相似性，汉语-泰语，汉语-老挝语的双语句对较为缺乏，直接导致汉语-泰语以及汉语-老挝语的翻译模型性能不佳，常见的策略是利用一定数量的平行句对构建平行句对抽取的模型，从互联网中的可比语料或伪平行句对中抽取高质量的汉语-泰语，汉语-老挝语的平行句对，可以有效地提升机器翻译性能。将泰语和老挝语不同层面的相似性信息进行融合表征，将汉语-泰语的句子抽取模型与汉语-老挝语的句子抽取模型进行共享，有效利用丰富资源语言的语言信息。

发明内容

本发明提供了基于语言相似性的迁移学习平行句对抽取方法及装置，以用于解决汉语-老挝语标记数据稀缺，小规模训练数据，平行句对的效果差问题，以及解决依靠标记数据训练的模型效果差的问题。

本发明的技术方案是：基于语言相似性的迁移学习平行句对抽取方法，所述方法的具体步骤如下：

Step1、对泰语、老挝语数据进行分词处理，将老挝语的词语、子词以及读音信息基于泰语进行表示；

Step2、基于迁移学习的汉语-泰语平行句对抽取模型训练：将汉语-泰语的平行句对模型进行训练，进一步将其迁移至汉语-老挝语的平行句对抽取模型中；

通过预训练好的汉语-泰语平行句对抽取模型，对输入的汉语-老挝语平行句对进行抽取，判断其句子相似度。

进一步地，所述步骤Step1的具体步骤为：

Step1.1、首先，对输入的泰语、老挝语句子分词处理；

Step1.2、基于泰语-老挝语双语词典、音标词典对泰语-老挝语中的词语进行替换。

进一步地，所述步骤Step1.2的具体步骤为：

在数据预处理层，利用泰语-老挝语之间的词典、子词词典、音标词典三部分进行替换，用于将老挝语表征为泰语，这样在进行数据模型输入以及向量化表示时，能有效的将两种语言的双语数据进行混合训练，以达到数据增强的目的；具体如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。