[发明专利]一种用于隐式篇章关系分析的显式数据筛选方法及系统在审

专利信息
申请号: 202110872310.2 申请日: 2021-07-30
公开(公告)号: CN113779963A 公开(公告)日: 2021-12-10
发明(设计)人: 鉴萍;田宇航 申请(专利权)人: 北京理工大学
主分类号: G06F40/211 分类号: G06F40/211;G06F40/216;G06F40/279
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 张利萍
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 篇章 关系 分析 数据 筛选 方法 系统
【权利要求书】:

1.一种用于隐式篇章关系分析的显式数据筛选方法,其特征在于,包括以下步骤:

步骤1:获取语料库样本和篇章关系类别,语料库包括显式数据和隐式数据;对样本进行预处理,每个样本包括两个以上的句子,一个句子称为一个论元;

步骤2:将显式数据和隐式数据均划分为三个数据集,分别为训练集、验证集、测试集;

此处,定义两种格式的隐式篇章关系数据集:

Dataset1:原始的隐式篇章关系数据集;

Dataset2:带推荐链接词的隐式篇章关系数据集;

定义两种格式显式篇章关系数据集:

Dataset3:原始的显式篇章关系数据集;

Dataset4:去掉连接词的显式篇章关系数据集;

步骤3:用Dataset1的训练集,训练一个隐式篇章关系分类器M1;

步骤4:将Dataset1的测试集,输入到训练好的隐式篇章关系分类器M1中,得到Dataset1隐式数据的分类结果概率分布A1;

步骤5:将所有隐式数据加上其推荐连接词,形成Dataset2;

步骤6:用Dataset2的训练集,训练一个显式篇章关系分类器M2,分类器M2结构和分类器M1一致;

步骤7:将Dataset2的测试集输入到训练好的显式篇章关系分类器M2中,得到Dataset2的分类结果概率分布A2;

对于<隐式数据,带推荐连接词的隐式数据>这种代表连接词可有可无的数据中存在一种规则R1,即,无论有无连接词都能正确预测逻辑关系,连接词只起到了强化作用;

步骤8:将所有Dataset3输入到显式篇章关系分类器M2中进行预测,得到所有数据的分类结果概率分布B1;

步骤9:将所有Dataset3中的连接词去掉,形成Dataset4;

步骤10:将所有Dataset4输入到隐式篇章关系分类器M1中进行预测,得到所有数据的分类结果概率分布B2;

步骤11:基于从<隐式数据,带推荐连接词的隐式数据>的分类结果概率分布中提取出的规则R1,将所有<显式数据去掉连接词,显式数据>中符合上述规则的数据提取出来,得到新的去掉连接词的显式篇章关系数据集Dataset4-1;

步骤12:将Dataset4-1加入到Dataset1的训练集,得到新的隐式篇章关系数据集Dataset1-1数据集;

步骤13:使用新得到的Dataset1-1数据集,重新训练一个隐式篇章关系分类模型M3;

步骤14:将Dataset1的测试集分别用M1模型和M3模型进行预测,得到预测结果的f1值和正确率。

2.如权利要求1所述的一种用于隐式篇章关系分析的显式数据筛选方法,其特征在于,步骤3中,采用BERT+MLP的方式构建分类器M1:

sentence1+sentence2(Dataset1)-→M1 (1)

其中,sentence1表示隐式句对中的第一个句子,sentence2表示句对中的第二个句子。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110872310.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top