[发明专利]一种社交噪音文本实体关系抽取优化方法及系统有效
| 申请号: | 202110364805.4 | 申请日: | 2021-04-02 |
| 公开(公告)号: | CN113076421B | 公开(公告)日: | 2023-03-28 |
| 发明(设计)人: | 刘晓明;李承祖;冯乙洋;多小川;贺靖涵 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/279;G06F40/30;G06F40/253;G06F40/211;G06N5/025;G06N5/04 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 贺小停 |
| 地址: | 710049 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 社交 噪音 文本 实体 关系 抽取 优化 方法 系统 | ||
本发明一种社交噪音文本实体关系抽取优化方法及系统,可解决社交文本领域数据标注成本大、数据更新速度快、数据集本身存在偏差以及原有模型可能陷入虚假相关性的问题。该方法将因果推断引入自然语言处理生成词向量的过程中,应用因果推断中干预与反事实的优势,实现了数据增强并减弱数据集本身带来的偏差。不仅能够减少人力标注数据的投入成本,而且能够有效模拟实际场景中文本的不规范性与创新性,提高模型对于社交噪音文本实体关系抽取的鲁棒性。与此同时,由于方法本身对于词向量进行处理,因此对于现有各类模型均有较好的适应性与应用可能性。
技术领域
本发明属于实体关系提取优化技术领域,特别涉及一种社交噪音文本实体关系抽取优化方法及系统。
背景技术
实体关系提取技术已经成为大数据分析和构建知识图谱的关键一环,该技术的目标为输出句子中所有的(主体,关系类型,客体)三元组为目标。随着该领域的不断发展,新的方法不断被提出。最早期的pipeline流水线模型将实体提取与关系提取分为先后的两个步骤,但该方法容易产生累积误差。随后许多研究人员提出了多种实体关系联合抽取模型,减少了累积误差。现有的实体关系联合提取模型大致可分为基于编码器的模型和任务分解的模型两类。前者直接采用encoder-decoder编码器-解码器结构,代表模型有NovelTagging与CopyRE。NovelTagging使用Decoder输出每个词所对应的标签,而标签由单词位置、关系类型与关系角色三部分组成。CopyRE中Decoder依次提取出句子中的关系类型、主体和客体,按此顺序提取完句子中所有的三元组。而任务分解的模型采用的主要思想为将实体关系提取任务进行分解,首先提取出所有可能的主体或客体,随后进行关系提取进一步确定是否存在关于该主体或客体的关系。该思想的代表模型为CasREL。不同于以往模型使用单分类器预测各个关系的概率的方法,该模型创造性地针对不同关系使用关系特定分类器,突出地改善了实体关系提取任务的完成效果。在实体关系提取任务中,若单个句子中存在多个关系,则多个三元组之间实体对重叠、单个实体重叠、实体嵌套的现象将对模型的性能提出更高要求。对于实体嵌套现象,传统的运用指针标记主客体开始与结束位置的方法难以针对该现象导致的问题进行改善。TPLinker模型通过对主体与客体的头与尾分别进行组合的方式巧妙地化解了该问题,且该模型同时采用了类似于CasREL的多个关系分类器的方法,对句子中存在多种关系现象的关系提取任务达到了较好的普适性。
对于上述涉及的抽取模型,其对于已有的规范标记数据均有较好表现效果。然而,由于社交噪音文本本身缺少系统标记数据,并且数据更新较快,大规模标记数据耗费成本较大,且时效性较短。同时由于社交噪音文本本身的日常化及口语化的特性,其实体规范性与句法顺序规范性均不同于一般关系提取任务基于的规范文本。在利用标准数据进行正常训练进而迁移到社交文本领域时,其模型对于社交文本的泛化性与鲁棒性均较差。
除此以外,标注数据集本身存在一定的比例偏差(Bias),在实体关系抽取领域具体表现为数据样本中某个客体与某种关系类型经常同时出现,而这种现象不具有一般性,或者主体大部分出现在客体之前等现象。如果在此类数据集上不加改动直接进行训练,对于前者可能会由于模型拟合会导致某客体与关系获得了一种虚假的相关性(SpuriousCorrelation),即该客体和关系本身在逻辑上并不具有相关意义但由于数据集中从统计概率角度经常一起出现,进而模型错误地认为二者之间存在相关性;对于后者可能会在主体客体位置分布上由于前面提到的虚假相关性进而对于客体在前主体在后的情况无法做到准确预测甚至出现结果主客体颠倒的情况。因此,以往方法均是在统计意义上研究实体、关系、句子的相关性,不能有效减少或避免上述现象的发生。
发明内容
本发明的目的在于提供一种社交噪音文本实体关系抽取优化方法及系统,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种社交噪音文本实体关系抽取优化方法,包括以下步骤:
S1,利用原始数据集同类关系下的主体客体以及利用同一类别的实体替代主体客体的方法来构建语义反事实语料库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110364805.4/2.html,转载请声明来源钻瓜专利网。





