[发明专利]一种基于翻译的跨语言短语结构分析方法及装置有效
| 申请号: | 202210526372.2 | 申请日: | 2022-05-16 | 
| 公开(公告)号: | CN114626363B | 公开(公告)日: | 2022-09-13 | 
| 发明(设计)人: | 张梅山;李建玲;孙越恒 | 申请(专利权)人: | 天津大学 | 
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/30;G06F40/216;G06F40/14;G06F40/189 | 
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 | 
| 地址: | 300072*** | 国省代码: | 天津;12 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 翻译 语言 短语 结构 分析 方法 装置 | ||
1.一种基于翻译的跨语言短语结构分析方法,其特征在于,所述方法包括:
S1、获取待分析的句子;
S2、将所述待分析的句子输入到构建好的跨语言短语结构分析模型;其中,所述跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块;
S3、根据所述待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果;
所述S2中的跨语言短语结构分析模型的构建过程包括:
S21、获取源语言短语结构树库;
S22、将所述源语言短语结构树库输入到所述短语结构树库构建模块,得到目标语言短语结构树库;
S23、根据所述目标语言短语结构树库以及预训练的自注意力机制解析器,构建所述短语结构解析器模块;
所述短语结构树库构建模块包括翻译模块、对齐模型以及调整模块;
所述S22中的将所述源语言短语结构树库输入到所述短语结构树库构建模块,得到目标语言短语结构树库包括:
S221、获取源语言短语结构树库中的源语言句子,将所述源语言句子输入到所述翻译模块,得到目标语言句子;
S222、将所述源语言句子以及目标语言句子输入到所述对齐模型,输出句子对中词语的对齐概率;其中,所述句子对包括源语言句子以及目标语言句子;
S223、将所述句子对中词语的对齐概率输入到所述调整模块,得到目标语言短语结构树库;
所述S221中的将所述源语言句子输入到所述翻译模块,得到目标语言句子包括:
采用翻译工具包将所述源语言句子翻译为目标语言句子;
对所述目标语言句子进行检查;其中,所述检查的方法为比较源语言句子和目标语言句子的长度;
判断检查后的目标语言句子是否需要分词,若是,则采用分词工具对所述检查后的目标语言句子进行分词,得到最终的目标语言句子;
所述S222中的对齐模型为无监督的fast_align对齐模型;
所述对齐模型的训练数据集的获取方法包括:
获取对齐语句,将所述对齐语句的格式转换为fast_align对齐模型的格式;对格式转换后的对齐语句的指标进行检查,得到对齐模型的训练数据集;其中,所述指标包括源语言句子或者目标语言句子的缺失情况以及源语言句子或者目标语言句子是否需要进行分词操作;
所述调整模块包括替换单元、删除单元以及树结构扭转单元;
所述S223中的将所述句子对中词语的对齐概率输入到所述调整模块,得到目标语言短语结构树库包括:
将所述句子对中词语的对齐概率输入到所述替换单元,所述替换单元选择所述句子对中词语的对齐概率为前预设个数的词,并用句子对中的目标词替换源词,得到替换后的句子对;
所述用句子对中的目标词替换源词包括:
若所述源词和目标词是一对一的关系,则所述目标词继承源词所有短语结构;
若所述源词和目标词是一对多的关系,则所述目标词构建一个短语结构,短语结构的父节点继承源词的所有短语结构;
若所述源词和目标词是多对一的关系,则所述目标词继承源词父节点的所有短语结构;
将所述替换后的句子对输入到所述删除单元,所述删除单元将替换后的句子对中无法对齐的源词删除,得到删除后的句子对;
将所述删除后的句子对输入到所述树结构扭转单元,得到目标语言短语结构树库;
所述短语结构解析器模块包括预训练语言模型、编码器模块以及解码器模块;
所述S23中的根据所述目标语言短语结构树库以及预训练的自注意力机制解析器,构建所述短语结构解析器模块包括:
S231、根据所述目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量;
S232、将所述输入向量输入到所述编码器模块,得到编码的语义向量;
S233、将所述编码的语义向量输入到所述解码器模块,得到解码结果;
所述S231中的根据所述目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量包括:
将目标语言短语结构树库中的句子中的每个词,通过预训练的自注意力机制解析器映射为向量;
通过预训练的自注意力机制解析器的线性层将向量转换为内容向量;
将所述内容向量与给定的可学习的位置向量进行拼接,得到输入向量;
所述S232中的将所述输入向量输入到所述编码器模块,得到编码的语义向量包括:
将所述输入向量的内容向量分别输入到编码器模块的两层多头自注意力层中的每层多头自注意力层,得到内容向量输出;
将所述输入向量的位置向量分别输入到编码器模块的两层多头自注意力层中的每层多头自注意力层,得到位置向量输出;
将所述内容向量输出以及位置向量输出进行拼接,并输入到编码器模块的残差网络中,得到编码的语义向量。
2.一种基于翻译的跨语言短语结构分析装置,其特征在于,所述装置包括:
获取模块,用于获取待分析的句子;
输入模块,用于将所述待分析的句子输入到构建好的跨语言短语结构分析模型;其中,所述跨语言短语结构分析模型包括短语结构树库构建模块以及短语结构解析器模块;
输出模块,用于根据所述待分析的句子、短语结构树库构建模块以及短语结构解析器模块,得到待分析的句子的短语结构分析结果;
所述跨语言短语结构分析模型的构建过程包括:
S21、获取源语言短语结构树库;
S22、将所述源语言短语结构树库输入到所述短语结构树库构建模块,得到目标语言短语结构树库;
S23、根据所述目标语言短语结构树库以及预训练的自注意力机制解析器,构建所述短语结构解析器模块;
所述短语结构树库构建模块包括翻译模块、对齐模型以及调整模块;
所述S22中的将所述源语言短语结构树库输入到所述短语结构树库构建模块,得到目标语言短语结构树库包括:
S221、获取源语言短语结构树库中的源语言句子,将所述源语言句子输入到所述翻译模块,得到目标语言句子;
S222、将所述源语言句子以及目标语言句子输入到所述对齐模型,输出句子对中词语的对齐概率;其中,所述句子对包括源语言句子以及目标语言句子;
S223、将所述句子对中词语的对齐概率输入到所述调整模块,得到目标语言短语结构树库;
所述S221中的将所述源语言句子输入到所述翻译模块,得到目标语言句子包括:
采用翻译工具包将所述源语言句子翻译为目标语言句子;
对所述目标语言句子进行检查;其中,所述检查的方法为比较源语言句子和目标语言句子的长度;
判断检查后的目标语言句子是否需要分词,若是,则采用分词工具对所述检查后的目标语言句子进行分词,得到最终的目标语言句子;
所述S222中的对齐模型为无监督的fast_align对齐模型;
所述对齐模型的训练数据集的获取方法包括:
获取对齐语句,将所述对齐语句的格式转换为fast_align对齐模型的格式;对格式转换后的对齐语句的指标进行检查,得到对齐模型的训练数据集;其中,所述指标包括源语言句子或者目标语言句子的缺失情况以及源语言句子或者目标语言句子是否需要进行分词操作;
所述调整模块包括替换单元、删除单元以及树结构扭转单元;
所述S223中的将所述句子对中词语的对齐概率输入到所述调整模块,得到目标语言短语结构树库包括:
将所述句子对中词语的对齐概率输入到所述替换单元,所述替换单元选择所述句子对中词语的对齐概率为前预设个数的词,并用句子对中的目标词替换源词,得到替换后的句子对;
所述用句子对中的目标词替换源词包括:
若所述源词和目标词是一对一的关系,则所述目标词继承源词所有短语结构;
若所述源词和目标词是一对多的关系,则所述目标词构建一个短语结构,短语结构的父节点继承源词的所有短语结构;
若所述源词和目标词是多对一的关系,则所述目标词继承源词父节点的所有短语结构;
将所述替换后的句子对输入到所述删除单元,所述删除单元将替换后的句子对中无法对齐的源词删除,得到删除后的句子对;
将所述删除后的句子对输入到所述树结构扭转单元,得到目标语言短语结构树库;
所述短语结构解析器模块包括预训练语言模型、编码器模块以及解码器模块;
所述S23中的根据所述目标语言短语结构树库以及预训练的自注意力机制解析器,构建所述短语结构解析器模块包括:
S231、根据所述目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量;
S232、将所述输入向量输入到所述编码器模块,得到编码的语义向量;
S233、将所述编码的语义向量输入到所述解码器模块,得到解码结果;
所述S231中的根据所述目标语言短语结构树库、预训练的自注意力机制解析器以及预训练语言模型,得到输入向量包括:
将目标语言短语结构树库中的句子中的每个词,通过预训练的自注意力机制解析器映射为向量;
通过预训练的自注意力机制解析器的线性层将向量转换为内容向量;
将所述内容向量与给定的可学习的位置向量进行拼接,得到输入向量;
所述S232中的将所述输入向量输入到所述编码器模块,得到编码的语义向量包括:
将所述输入向量的内容向量分别输入到编码器模块的两层多头自注意力层中的每层多头自注意力层,得到内容向量输出;
将所述输入向量的位置向量分别输入到编码器模块的两层多头自注意力层中的每层多头自注意力层,得到位置向量输出;
将所述内容向量输出以及位置向量输出进行拼接,并输入到编码器模块的残差网络中,得到编码的语义向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210526372.2/1.html,转载请声明来源钻瓜专利网。





