[发明专利]一种用于隐式篇章关系分析的显式数据筛选方法及系统在审
申请号: | 202110872310.2 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113779963A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 鉴萍;田宇航 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/279 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 篇章 关系 分析 数据 筛选 方法 系统 | ||
1.一种用于隐式篇章关系分析的显式数据筛选方法,其特征在于,包括以下步骤:
步骤1:获取语料库样本和篇章关系类别,语料库包括显式数据和隐式数据;对样本进行预处理,每个样本包括两个以上的句子,一个句子称为一个论元;
步骤2:将显式数据和隐式数据均划分为三个数据集,分别为训练集、验证集、测试集;
此处,定义两种格式的隐式篇章关系数据集:
Dataset1:原始的隐式篇章关系数据集;
Dataset2:带推荐链接词的隐式篇章关系数据集;
定义两种格式显式篇章关系数据集:
Dataset3:原始的显式篇章关系数据集;
Dataset4:去掉连接词的显式篇章关系数据集;
步骤3:用Dataset1的训练集,训练一个隐式篇章关系分类器M1;
步骤4:将Dataset1的测试集,输入到训练好的隐式篇章关系分类器M1中,得到Dataset1隐式数据的分类结果概率分布A1;
步骤5:将所有隐式数据加上其推荐连接词,形成Dataset2;
步骤6:用Dataset2的训练集,训练一个显式篇章关系分类器M2,分类器M2结构和分类器M1一致;
步骤7:将Dataset2的测试集输入到训练好的显式篇章关系分类器M2中,得到Dataset2的分类结果概率分布A2;
对于<隐式数据,带推荐连接词的隐式数据>这种代表连接词可有可无的数据中存在一种规则R1,即,无论有无连接词都能正确预测逻辑关系,连接词只起到了强化作用;
步骤8:将所有Dataset3输入到显式篇章关系分类器M2中进行预测,得到所有数据的分类结果概率分布B1;
步骤9:将所有Dataset3中的连接词去掉,形成Dataset4;
步骤10:将所有Dataset4输入到隐式篇章关系分类器M1中进行预测,得到所有数据的分类结果概率分布B2;
步骤11:基于从<隐式数据,带推荐连接词的隐式数据>的分类结果概率分布中提取出的规则R1,将所有<显式数据去掉连接词,显式数据>中符合上述规则的数据提取出来,得到新的去掉连接词的显式篇章关系数据集Dataset4-1;
步骤12:将Dataset4-1加入到Dataset1的训练集,得到新的隐式篇章关系数据集Dataset1-1数据集;
步骤13:使用新得到的Dataset1-1数据集,重新训练一个隐式篇章关系分类模型M3;
步骤14:将Dataset1的测试集分别用M1模型和M3模型进行预测,得到预测结果的f1值和正确率。
2.如权利要求1所述的一种用于隐式篇章关系分析的显式数据筛选方法,其特征在于,步骤3中,采用BERT+MLP的方式构建分类器M1:
sentence1+sentence2(Dataset1)-→M1 (1)
其中,sentence1表示隐式句对中的第一个句子,sentence2表示句对中的第二个句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110872310.2/1.html,转载请声明来源钻瓜专利网。