[发明专利]一种基于知网的多义词中文实体关系识别方法有效

专利信息
申请号: 202110309085.1 申请日: 2021-03-23
公开(公告)号: CN113239663B 公开(公告)日: 2022-07-12
发明(设计)人: 赵忠华;余在洋;王禄恒;张磊;赵志云;王勇;葛自发;孙小宁;万欣欣;李欣;孙立远;付培国;王晴;杜宛真 申请(专利权)人: 国家计算机网络与信息安全管理中心;中国科学院信息工程研究所
主分类号: G06F40/126 分类号: G06F40/126;G06F40/216;G06F40/242;G06F40/284;G06F40/295;G06F40/30;G06N3/04;G06N3/08
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 司立彬
地址: 北京市朝阳区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知网 多义词 中文 实体 关系 识别 方法
【说明书】:

发明公开了一种基于知网的多义词中文实体关系识别方法,其步骤包括:1)对中文网事数据中的每一条语料样本基于知网进行字颗粒度的向量化,得到每一个字对的字颗粒度向量;然后对每一字颗粒度向量所在的位置信息进行编码,得到语料中每个字与预标注的待识别实体关系对的相对位置编码;2)根据步骤1)所得结果生成每一语料样本的字颗粒度语义向量集合;3)基于知网生成每一语料的词颗粒度语义向量集合;4)利用各语义向量及其对应位置编码训练深度自注意力神经网络,得到深度自注意力神经网络编码器;5)生成待处理语料中字和词汇的语义向量及其对应位置编码输入深度自注意力神经网络编码器,得到该待处理语料中的实体关系。

技术领域

本发明设计一种基于多义词表征的中文新闻网事数据的实体关系抽取方法,对中文新闻网事数据中的实体关系进行抽取,属于自然语言处理范畴。

背景技术

伴随着言论开放程度越来越高,更多的官方媒体、自媒体、机构、个人参与到了新闻媒体社交活动中,随之而来的是大量的中文新闻网事数据。多类媒体下的新闻网络环境语料有文本结构差异大、词汇用语习惯性变化强、不同地域词语用法不一致等特点。所以说,有极大的价值去挖掘这类复杂的中文新闻网事数据语料的潜在信息。

在中文新闻网事数据当中,由于发布者所属机构、地区往往存在着很大的差异。在这样的背景下,提供一种自动化的实体关系识别工具,从而实现对这些新闻发布者的真实意图切实、快速的抓取网络舆情,可以极大的节约政府机构的人力成本。在中文新闻网事数据的基础上,本方法极大的为新闻网络监管者提供了便利。

目前,现有的中文新闻网事数据的实体关系抽取方法往往基于预训练的词向量字典,或是基于统计学的word2vec的词向量特征用于对原始的中文新闻网事数据进行向量化。但是,此类传统的向量化方法往往没有考虑到因中文新闻网事数据发布者所处地域、机构等的差异性所产生的一词多义等现象。最重要的是若仅使用这类方法在不同语境下表示多义词词汇,同时仅仅采用同一表示方法表示多义词,会导致忽略了多义词在不同语料中的多含义的特性。本方法主要是抽取中文新闻网事数据中的实体关系。与传统的实体关系抽取不同的是,中文新闻网事数据发布者来自多方媒体,发布信息术语具有极大的差异性。同时,由于中文本身在不同的上下文语境中存在有极大的歧义性,中文新闻网事数据的实体关系抽取相较于传统的单一发布媒体源的中文新闻网事数据的实体关系抽取更具困难性。

词向量的生成主要分为两大类:基于概率学和预训练模型的方法。较早的基于概率学的方法有Skip-gram方法、CBow方法等等。这类方法直接通过统计原始输入的样本,从而生成词向量。这类方法只能抓取出以字为单位的向量特征。虽然相较于其他词向量生成方法,它具有编码时间短,占用资源较少等优点。但其缺陷在于无法抓取丰富的以词为单位的中文词向量特征。同时Skip-gram方法、CBow方法等概率学方法需要设置训练窗口大小,而过小的窗口无法将预料当中的上下文信息体现在以字为单位的向量特征中,同时,过大的窗口往往无法提取出词向量在语料中的高纬度特征。所以说基于概率学的方法无法在歧义性较大的中文新闻网事数据中产生较好效果。

而基于预训练模型的方法如Bert中文词向量字典、Electra中文词向量字典等等。这类词向量生成方法往往基于Seq2Seq模型如:Transformer、LSTM、GPT等结构。这类方法通过对大量的网络数据进行编码,从而生成出词向量字典。虽然这类方法的训练数据量较大,但是这类网络训练数据本身随意性较强,所以相较于中文新闻网事数据有较大的差异性,从而导致这类预训练的词典,无法准确的表示出在中文新闻网事数据所体现的词义特征。同时由于这类字典不提供对多义词的多表示编码,所以仅对于不同语义的同一词汇仅做出一种表示。所以说此类基于预训练模型的词向量字典也无法表示出中文新闻网事数据的多维度信息。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院信息工程研究所,未经国家计算机网络与信息安全管理中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110309085.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top