[发明专利]一种社交噪音文本实体关系抽取优化方法及系统有效
| 申请号: | 202110364805.4 | 申请日: | 2021-04-02 |
| 公开(公告)号: | CN113076421B | 公开(公告)日: | 2023-03-28 |
| 发明(设计)人: | 刘晓明;李承祖;冯乙洋;多小川;贺靖涵 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/279;G06F40/30;G06F40/253;G06F40/211;G06N5/025;G06N5/04 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 贺小停 |
| 地址: | 710049 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 社交 噪音 文本 实体 关系 抽取 优化 方法 系统 | ||
1.一种社交噪音文本实体关系抽取优化方法,其特征在于,包括以下步骤:
S1,利用原始数据集同类关系下的主体客体以及利用同一类别的实体替代主体客体的方法来构建语义反事实语料库;
S2,利用语法结构和识别结果标准构建反事实检验器,筛选出有利用价值的语义反事实并入原始数据,未通过检验的语义反事实数据将被删除并通过S1补齐数目;
S3,利用相对位置编码提取词语位置信息,通过对主客体的位置编码调换完成句法位置反事实生成;
S4,扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量;
S5,在反事实扩充数据集的词向量的基础上,基于句法位置编码与词向量组成的数据,通过对于其中的反事实数据与原数据做同样的变换处理得到消除引入位置编码影响后的反事实词向量,作为抽取模型的输入;
S6,多分类器将数据输入得到的词向量作为模型输入进行训练,模型利用TPLinker或CasRel实体关系抽取模型,得到最终抽取模型;
S7,将待抽取的社交噪音文本经过BERT预训练模型得到对应词向量后输入已训练模型完成实体关系抽取;
S5中,在反事实扩充数据集的词向量的基础上,选取数据集中的一部分数据生成反事实词向量;句法位置的位置编码与其反事实位置编码被加入进来以协助生成过程,首先将正常句法位置编码与词向量放入transformer网络中进行训练,目标是贴近原本的词向量表示;训练完成后,将反事实位置编码与原词向量放入transformer网络中,输出得到包含替换后句法关系信息的反事实词向量;结合反事实的数据输入模块将原数据与反事实结合起来,得到了通过BERT预训练模型的词向量以及在此基础上的部分反事实词向量,这些将作为输入传递进最终的模型进行训练。
2.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S1中,语义反事实语料库生成是通过对于同一类型关系建立的主体客体数据库进行抽取,该语料库充当反事实原始语料库,建立方式包括利用原始数据集同类关系下的主体客体、以及利用外部同一类别的实体替代主体客体;以语义相似程度作为衡量标准,利用抽取结果进行替换填充,进而在原始数据基础上生成与原数据不同但语义得到丰富的反事实数据。
3.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S2中,反事实检验器常用的检验标准有句法结构是否合理、主体客体词性与实体类别信息是否统一、是否能够被在原数据集上训练的模型识别得到;如果句法结构合理、词性与类别统一、能够被原模型抽取得到,则证明该反事实数据具有利用价值,被后续使用;如果未通过检验,则重新利用主体客体数据库中进行生成;外部实时数据被引入以扩充反事实原始语料库。
4.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S3中,句法位置反事实生成是面向数据集中固有的主体与客体之间位置存在前后关系的现象,对于主体在后客体在前的情况,引入句子中单词词语位置表示;在主体在前客体在后数据的基础上,对于主体与客体前后关系的位置表示进行改变进而生成关于句法位置的反事实,其通过对于主体客体对应的位置表示进行调换,得到反事实的位置表示;位置表示可以通过计算相对位置编码得到。
5.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S4中,对于生成的语义反事实及句法位置反事实,成功通过检验的语义反事实作为正常数据加入原始数据集中扩充增强数据,将扩充的数据集利用BERT预训练模型作为编码器得到对应的词向量。
6.根据权利要求1所述的一种社交噪音文本实体关系抽取优化方法,其特征在于,S6中,独立于反事实生成模块与数据输入模块,实现了基于词向量的关系实体联合信息抽取;总体流程为将词向量输入进神经网络,计算得到预测结果,将其与训练数据中的正确结果进行比较得到损失,而后利用反向传播梯度下降优化算法对于模型参数进行更新;上述模型通过利用反事实词向量与正常词向量在数据集上进行训练,即可得到最终抽取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110364805.4/1.html,转载请声明来源钻瓜专利网。





