[发明专利]基于语言相似性的迁移学习平行句对抽取方法及装置有效
申请号: | 202110743036.9 | 申请日: | 2021-07-01 |
公开(公告)号: | CN113627150B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 毛存礼;满志博;余正涛;高盛祥;黄于欣;王振晗 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/242;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 相似性 迁移 学习 平行 抽取 方法 装置 | ||
1.基于语言相似性的迁移学习平行句对抽取方法,其特征在于:所述方法的具体步骤如下:
Step1、对泰语、老挝语数据进行预处理:将老挝语的词语、子词以及读音信息基于泰语进行表示;
Step2、基于迁移学习的汉语-泰语平行句对抽取模型训练:将汉语-泰语的平行句对模型进行训练,进一步将其迁移至汉语-老挝语的平行句对抽取模型中;
通过预训练好的汉语-泰语平行句对抽取模型,对输入的汉语-老挝语平行句对进行抽取,判断其句子相似度;
所述步骤Step1的具体步骤为:
Step1.1、首先,对输入的泰语、老挝语句子分词处理;
Step1.2、基于泰语-老挝语双语词典、音标词典对泰语-老挝语中的词语进行替换;
所述步骤Step1.2的具体步骤为:
在数据预处理层,利用泰语-老挝语之间的词典、子词词典、音标词典三部分进行替换,用于将老挝语表征为泰语,这样在进行数据模型输入以及向量化表示时,能有效的将两种语言的双语数据进行混合训练,以达到数据增强的目的;具体如下:
Step1.2.1、泰-老词语表示:输入一句包含n个词语的泰语句子SThw=(w1th,w2th,...,wnth)和对应的包含n个词语的泰语句子SLaow=(w1lao,w2lao,...,wnlao),将根据泰语子词-老挝语词表的对应关系进行替换,分词后的泰语、老挝语句子基于泰语-老挝语的词典进行替换,将老挝语句子的单词替换为泰语,因此,对于输入模型的所有输入的老挝语句子均由泰语句子所表征,输入泰语句子为在词和子词层面替换后的泰语、老挝语句子表示如下式所示:
SThs=(s1th,s2th,...,snth)
SLaos=(s1lao,s2lao,...,snlao)
Step1.2.2、泰-老音标表示:将泰语-老挝语之间的音标进行向量化表示并将音标信息作为向量同时拼接在句子向量的表示中,每个输入模型的泰语句子SThw=(w1th,w2th,...,wnth)、老挝语句子SLaow=(w1lao,w2lao,...,wnlao)都有对应的音标级表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110743036.9/1.html,转载请声明来源钻瓜专利网。