[发明专利]一种基于参数线性约束的多任务分词方法有效

专利信息
申请号: 201710065928.1 申请日: 2017-02-06
公开(公告)号: CN106844345B 公开(公告)日: 2019-07-09
发明(设计)人: 苏劲松;阮志伟;纪荣嵘 申请(专利权)人: 厦门大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 厦门南强之路专利事务所(普通合伙) 35200 代理人: 马应森
地址: 361005 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 参数 线性 约束 任务 分词 方法
【权利要求书】:

1.一种基于参数线性约束的多任务分词方法,其特征在于其包括以下步骤:

1)使用不同分词标准的数据对不同分词模型进行初步训练,具体方法为:

(1)对基于LSTM的中文分词模型,字符的嵌入表示如下:

用神经网络处理字符数据的第一步是用向量来表示字符的语义,即CharacterEmbedding,用C表示大小为|C|的字符词典,任何在字典中的字符c都用一个实数向量vc∈Rd表示,其中d是向量空间的维度,所有字符的嵌入表示组成字符嵌入表示矩阵M,M∈R|C|×d,矩阵M中的每一行都表示对应某个字符的嵌入表示,某个字符对应的行通过查找表找到;

标签打分如下:

把中文分词看成一个分类问题,任何一个字符被分成四类B,M,E,S标签中的一类,分别表示一个词的开头,中间,结尾和单独一个字作为词,给定一个字符序列x=(x1,x2,…,xn),使用LSTM网络对标签进行打分;对于字符xt,1≤t≤n,,网络的输入为:

其中,表示拼接,k1、k2分别表示当前字符左边和右边的窗口大小,将x输入到LSTM单元,进一步得到:

ht=ot⊙tanh(ct)

其中,ct,ht分别表示LSTM单元在t时刻的记忆单元和隐层状态,向量it,ot,ft分别表示时刻t的LSTM输入、输出和遗忘门,用于控制LSTM单元信息记忆存储,⊙表示对应的元素相乘,W1,b1是模型的参数;

再根据以下公式计算在当前上下文各个标签的分数:

st=W2ht+b2

其中,W2和b2也为网络的参数;

为了建模标签之间的关系,进一步引入来度量从标签yt-1转移到yt的概率,yt表示xt对应的标签,经过上述过程,输入句子x的标签序列y的分数计算如下:

其中,y表示标签序列,表示网络对应于标签yt的输出分数,θ表示模型的参数,n为x的长度;给定一个训练样本(x,y),用表示预测得到的标签序列,则:

其中,Y(x)为序列x所有可能的标签序列集合;

定义边缘损失为:

其中,1{*}为指示函数,当时,取值为1,否则为0,而η为折扣因子;

最后,在给定一个数据集D,目标函数定义为:

其中,λ为正则化项对应的权重;

(2)基于多任务学习的中文分词模型

将步骤(1)的建模过程推广到不同分词标准的分词模型建模,使用多任务学习框架来进行不同模型的联合训练,对于不同的模型,共享字符嵌入表示矩阵M和LSTM模型参数,而对于分词标签的相关参数,即W2、b2,使用线性约束来建模他们之间的关系;

用i、j分别表示两个不同的模型,这两者之间的约束关系表示为:

其中,表示第i个模型的分词标签相关参数,表示网络的参数;

综上述,多任务学习框架下模型的目标函数包含分词损失以及约束损失:

其中,Jii)表示模型i的分词损失,λw表示模型约束项对应的权重,N表示模型个数;

(3)模型训练

采用Mini-batch的训练方式,同时使用不同分词标准的数据来联合训练不同标准分词模型;在这个过程中,使用AdaGrad进行参数优化求解;

2)对于不同分词模型,共享部分参数,对另外的参数建立线性约束关系;

3)建立统一的目标函数,进行不同分词模型的训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710065928.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top