[发明专利]一种基于多答案损失函数的片段信息抽取模型训练方法在审
| 申请号: | 202011080324.2 | 申请日: | 2020-10-10 |
| 公开(公告)号: | CN112131351A | 公开(公告)日: | 2020-12-25 |
| 发明(设计)人: | 叶琪;雷丽琪;阮彤;杜渂 | 申请(专利权)人: | 华东理工大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/289;G06F40/30;G06F40/242 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 200237 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 答案 损失 函数 片段 信息 抽取 模型 训练 方法 | ||
1.一种基于多答案损失函数的片段信息抽取模型训练方法,其特征在于,包括:
标注片段式信息,对文本中的片段式信息采取多准则标注,得到多个标注答案,所述片段式信息是指标注边界模糊的短语或短句;
对文本、标注答案进行预处理,并随机切分训练集、验证集和测试集;
将训练集中预处理后的样本数据输入到基于多答案损失函数的片段信息抽取模型中训练,得到训练集中多个文本对应的答案,其中,所述文本对应的答案包括答案的开始位置、结束位置以及位于开始位置和结束位置的概率。
2.根据权利要求1所述的方法,其特征在于,所述标注片段式信息,对文本中的片段式信息采取多准则标注,得到多个标注答案的过程包括:
对片段式信息分别按最大语义最短片段和最大语义较长片段两个角度标注多个边界,得到多个标注答案片段;其中,所述最大语义最短片段为能够表达出所需抽取信息的完整语义的最短跨度文本,最大语义最短片段为句子中的一个短语片段;所述最大语义较长片段是以最大语义最短片段为基础增加了相关的补充信息,标注边界由标点符号决定,是短语片段或者一个完整的句子。
3.根据权利要求1所述的方法,其特征在于,对文本、标注答案进行预处理,并随机切分训练集、验证集和测试集,包括:
利用BERT模型的分词器对文本进行分词,根据BERT预设的中文词典,对分词后的序列进行编码映射;
设置最大序列长度,将超过最大序列长度的序列截断,并对低于最大序列长度的序列用‘PAD’补齐;
将多个答案片段预处理为多个答案的开始和结束位置;
构造训练集、验证集和测试集,需将标注数据集按照8:1:1随机分成训练集、验证集和测试集。
4.根据权利要求1所述的方法,其特征在于,所述基于多答案损失函数的片段信息抽取模型训练的过程包括:
搭建多答案损失函数的片段信息抽取模型,首先构造BERT的基础结构以及预训练参数,包括四个输入层:词嵌入、段嵌入、位置嵌入、MASK嵌入;其后紧接着12个Transformer的encoding层,Transformer的encoding层用来对文本序列进行特征提取;最后由两个dense层组成,将提取后的特征向量降至1维,并分别进行压缩后利用softmax激活函数归一化,输出片段信息的起始位置和结束位置的概率;
利用多答案损失函数来对所述多答案损失函数的片段信息抽取模型进行训练;
利用基于片段信息抽取模型的评价函数进行评价。
5.根据权利要求4所述的方法,其特征在于,所述多答案损失函数包括:
loss=lossstart+lossend
其中,损失函数loss起始位置的loss和结束位置的loss共同决定,每个样本X=(x1,x2,…,xj,…xn)存在m个标答P=(p,p2,…,pi,…pm),分别对pi与模型的输出概率q求交叉熵损失函数cross_entropy(pi,q),取最小的cross_entropy值作为最终的lossstart或lossend,其中,分别为第i个标答片段的起始位置和结束位置,qend分别为模型起始位置输出层和结束位置输出层的概率,pi(xj)为第i个标答中第j个字符对应的标签取值,q(xj)为模型输出层中第j个字符对应的概率。
6.根据权利要求4所述的方法,其特征在于,所述基于片段信息抽取模型的评价函数,包括:
其中,scorek为第k个样本(k∈[1,N])的得分,若存在一个标答与模型输出最大概率的位置一致,则得分为1,否则得分为0,accstart和accend表示起始位置的准确率和结束位置的准确率,accstart和accend是对N个样本的得分取平均值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011080324.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:插座及空调机组
- 下一篇:一种涤纶长丝及其制备工艺





