[发明专利]一种用于隐式篇章关系分析的显式数据筛选方法及系统在审
申请号: | 202110872310.2 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113779963A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 鉴萍;田宇航 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/279 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 篇章 关系 分析 数据 筛选 方法 系统 | ||
本发明涉及一种用于隐式篇章关系分析的显式数据筛选方法及系统,属于自然语言处理技术领域。本发明从隐式数据和插入推荐连接词隐式数据的篇章关系预测结果分布中提取判断连接词可有可无的规则,并将显式数据和去掉连接词显式数据篇章关系预测结果分布中符合上述规则的数据提取出来,用这些数据对隐式篇章关系进行数据增强。对比现有技术,本发明提升了隐式篇章关系识别的准确度。
技术领域
本发明涉及一种隐式篇章关系分析数据增强方法,特别涉及一种用于隐式篇章关系分析的显式数据筛选方法及系统,属于自然语言处理技术领域。
背景技术
隐式篇章关系分析是篇章关系分析领域的重要分支,也是当前亟待解决的难点技术问题。
隐式篇章关系建立在词法和句法分析之上,旨在从篇章级别对没有篇章连接词连接的句间关系进行识别与归类。当前,对于隐式篇章关系识别的研究还不是很成熟,一方面,由于句子(亦称论元)之间缺乏篇章连接词,模型必须通过理解文本中的深层语义来识别句间的隐式关系;另一方面,隐式数据标注成本较高,数据比较匮乏。
现有的研究方法主要从两个方向入手,一是通过对模型的改进,希望模型能够更好的理解隐含在句子中的深层语义;二是如何合理的利用显式数据来对隐式篇章关系进行数据增强。其中,显式篇章关系数据是指句子(亦称论元)之间含有显式的连接词来连接。
由于形式和目标的天然一致性,部分研究者开始分析能否用显式篇章关系分析的数据来对隐式篇章关系数据进行数据增强。但是,并不是所有显式数据都和隐式数据是同分布的,在显式数据中,只有部分数据可以用来给隐式数据做数据增强。由于显式数据可以通过大量基于连接词匹配的方式从海量数据中获得,如何提取出显式数据中与隐式数据同分布的那部分数据,对与隐式篇章关系识别任务有着重要意义。
Wang等人提出了典型/非典型显式数据的观点,认为只有典型的显式数据才能用于对隐式数据进行数据增强,并且通过手动设置语言学规则挑选出典型的显式数据。Rutherford等人通过统计连接词的省略率和去掉连接词后的上下文语境差的大小来衡量一个显式数据的连接词是否被删除。Xu等人利用主动学习用所有显式数据对隐式篇章关系识别进行数据增强。
综上所述,现在利用显式数据的方式,一种是采用离散特征挑选部分典型的显式数据;另一种是将所有显式数据都用来做数据增强。但是,这些方法存在以下缺陷:
1.直接标注隐式数据的成本太高,实现起来难度大。
2.由于并非所有显式数据都是和隐式数据同分布的,因此将显式数据全部用上反而会使隐式篇章关系分析的效果下降。
发明内容
本发明的目的是为了解决隐式篇章关系识别任务中面临的数据稀缺、如何利用合理显式数据的技术问题,提出一种用于隐式篇章关系分析的显式数据筛选方法及系统。
由于显式数据中只有部分数据和隐式数据是同分布的,因此,将显式数据分为两部分:
(1)连接词必不可少,连接词对逻辑关系有着决定作用。
例:I want to go home for the holiday.Nonetheless,I will book a flightto Hawaii.
(2)连接词可有可无,去掉连接词也可以表达相同的逻辑关系。
例:Let’s go to dinner because I’m hungry
其中,第一部分明显是和隐式数据不同分布的,不能用于对隐式篇章关系数据进行数据增强。第二部分和隐式数据是同分布的,可以用于对隐式篇章关系数据进行数据增强。
因此,如何将显式篇章关系数据的这两种数据分布进行有效区分,是本发明要解决的核心问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110872310.2/2.html,转载请声明来源钻瓜专利网。