[发明专利]基于共享表示的多任务语言分析系统及方法有效
| 申请号: | 201910600598.0 | 申请日: | 2019-07-04 |
| 公开(公告)号: | CN110309511B | 公开(公告)日: | 2022-12-09 |
| 发明(设计)人: | 车万翔;刘洋;赵妍妍;刘挺 | 申请(专利权)人: | 哈尔滨工业大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
| 地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 共享 表示 任务 语言 分析 系统 方法 | ||
1.基于共享表示的多任务语言分析系统,其特征在于,包括:
表示层模型:表示层模型使用的是BERT编码器结构的隐层输出,该模型输入中文字序列,输出与字序列等长的向量序列,每个向量对应着相应位置的字的分布式语义表示,将表示层输出统一表示为矩阵R1;
分词模块:针对R1中每个字隐层表示的向量通过一个线性层运算,映射到一个4维的BMES标签空间,使用softmax函数转化为标签概率分布,求出概率最高的标签,并通过标签含义,解码出词序列输出;
以词序列和R1作为输出,将R1中每个词首字位置的隐层表示输出作为该词的分布式表示,统一表示为R2;
分析模块,包括词性标注子模块;每个子模块的输入均为分词模块的输出结果R2;
词性标注子模块:针对R2中每个词隐层表示向量通过一个线性层运算,映射到词性标签空间,使用softmax函数转化为词性概率分布,求出概率最高的词性;
所述的分析模块还包括实体识别子模块;
实体识别子模块:针对R2中每个词隐层表示向量通过双向长短时记忆网络进行编码,并通过条件随机场模型在BMESO实体标签空间上进行解码,求出最可能的实体标签序列,并通过标签含义解码出实体片段;
所述的分析模块还包括依存句法分析子模块;
句法分析子模块:针对R2中每个词隐层表示向量,通过两个多层感知机将表示映射到作为句法父节点和子节点的不同表示,并将这两种表示通过双线性计算得到相应的句法弧转移矩阵,同样使用双线性方法得到对应句法弧的句法标签;由此即可求出每个词的父节点和标签并输出句法树;
所述的分析模块还包括语义角色标注子模块;
语义角色标注子模块:针对R2中每个词隐层表示向量,将对应谓词的隐层表示与所有词表示进行拼接,通过多层双向LSTM对其进行编码得到新的表示R3,对R3再次对应谓词的隐层表示与所有词表示进行拼接;并通过一个线性层映射到BIO论元空间,使用softmax函数转化为论元标签概率分布,并通过标签含义解码出相应谓词的论元片段。
2.基于共享表示的多任务语言分析方法,其特征在于,包括以下步骤:
步骤1、表示层模型使用的是BERT编码器结构的隐层输出,该模型输入中文字序列,输出与字序列等长的向量序列,每个向量对应着相应位置的字的分布式语义表示,将表示层输出统一表示为矩阵R1;
步骤2、针对R1中每个字隐层表示向量通过一个线性层运算,映射到一个4维的BMES标签空间,使用softmax函数转化为标签概率分布,求出概率最高的标签,并通过标签含义,解码出词序列输出;
步骤3、以词序列和R1作为输出,将R1中每个词首字位置的隐层表示输出作为该词的分布式表示,统一表示为R2;
步骤4、以步骤3的输出结果R2为输入进行分析,包括以下步骤:
针对R2中每个词隐层表示向量通过一个线性层运算,映射到词性标签空间,使用softmax函数转化为词性概率分布,求出概率最高的词性;
步骤4以步骤3的输出结果R2为输入进行分析的过程还包括以下步骤:
针对R2中每个词隐层表示向量通过双向长短时记忆网络进行编码,并通过条件随机场模型在BMESO实体标签空间上进行解码,求出最可能的实体标签序列,并通过标签含义解码出实体片段;
步骤4以步骤3的输出结果R2为输入进行分析的过程还包括以下步骤:
针对R2中每个词隐层表示向量,通过两个多层感知机将表示映射到作为句法父节点和子节点的不同表示,并将这两种表示通过双线性计算得到相应的句法弧转移矩阵,同样使用双线性方法得到对应句法弧的句法标签;由此即可求出每个词的父节点和标签并输出句法树;
步骤4以步骤3的输出结果R2为输入进行分析的过程还包括以下步骤:
针对R2中每个词隐层表示向量,将对应谓词的隐层表示与所有词表示进行拼接,通过多层双向LSTM对其进行编码得到新的表示R3,对R3再次对应谓词的隐层表示与所有词表示进行拼接;并通过一个线性层映射到BIO论元空间,使用softmax函数转化为论元标签概率分布,并通过标签含义解码出相应谓词的论元片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910600598.0/1.html,转载请声明来源钻瓜专利网。





