[发明专利]一种基于WordNet和IDF的非结构化文本的实体关系分类方法在审
| 申请号: | 201911345611.9 | 申请日: | 2019-12-24 |
| 公开(公告)号: | CN111191031A | 公开(公告)日: | 2020-05-22 |
| 发明(设计)人: | 陈雪;乐金雄;骆祥峰;黄敬;王鹏 | 申请(专利权)人: | 上海大学;阿里巴巴集团控股有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
| 地址: | 200444*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 wordnet idf 结构 文本 实体 关系 分类 方法 | ||
本发明公开了一种基于WordNet和IDF的非结构化文本的实体关系分类方法。该方法的具体步骤如下:(1)获取文本训练集并进行预处理后得到句子矩阵表示;(2)利用WordNet扩展句子外部语义信息;(3)利用IDF扩展句子内部语义信息;(4)计算句子中单词的位置信息,更新句子的矩阵表示;(5)将步骤(4)的句子矩阵输入分段卷积神经网络中,得到句子的特征向量。(6)将特征向量输入到分类器中,计算损失函数。(7)若本轮训练准确率较上一轮的提高大于0.1%或者达到迭代上限,则该分类方法训练完毕;否则,更新步骤(5)中超参数,继续训练过程。本发明所述方法能准确地表达实体和关系的语义特征,从而缓解训练集数据噪声过大的问题,提高分类准确性。
技术领域
本发明涉及文本挖掘和深度学习技术领域,是一种在远程监督学习下基于WordNet和IDF的非结构化文本的实体关系分类方法,可应用于构建知识图谱、开发问答系统,以及信息检索系统等具体领域。
背景技术
实体关系抽取是信息抽取领域最重要的子课题之一,是在实体识别的基础上从非结构化文本中抽取出预先定义的实体间的语义关系。根据对标注数据的依赖程度,实体关系抽取方法可分为有监督关系抽取、半监督关系抽取、无监督关系抽取和远程监督关系抽取。
有监督关系抽取将关系抽取任务当作关系分类问题,根据训练数据设计合适的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。半监督关系抽取采用自助抽样法进行关系抽取,首先人工设定种子实例,然后迭代地从数据中抽取关系对应的关系模版和更多的实例。无监督关系抽取假设拥有相同语义关系的实体对拥有相似的上下文信息,然后利用每个实体对上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。
远程监督方法是一种使用远程知识库对齐朴素文本的标注方法,可以进行自动标注数据,从而避免人工构建语料库。此方法假设只要一个句子里包含知识库中的两个实体,那么句子中两实体的关系一定是知识库中定义的关系。这种强假设条件会产生大量的错误标签,对于大量错误标签的过滤成为该研究方法的重点。现有的过滤方法总体上分为三种,其一是采用多示例学习(Multiple Instance Learning,MIL)的方式从训练集中抽取置信度高的训练样例结合分段卷积神经网络(Piece-wise Convolutional Neural Network,PCNN)进行标签过滤。其二是采用PCNN结合注意力机制(Attention)为标签正确的示例句子分配较高权重,标签错误的示例句子分配较低权重。其三是在PCNN和Attention的基础上添加了实体的描述信息来辅助学习实体的表示。
综上,当前远程监督下的关系抽取方法,主要解决远程监督自动生成标注训练集的过程中由于引入强假设条件,导致大量数据的关系被标注错误,使得训练数据存在大量噪声的问题。
发明内容
本发明提出了一种基于认知语言学的英文词典(WordNet)和逆文档频率(InverseDocument Frequency,IDF)的非结构化文本实体关系分类方法,使用外部信息和内部信息对实体及句子进行语义扩展,然后利用分段卷积神经网络提取定长的语义特征向量,用于训练分类器,最后可以对非结构化文本的实体关系进行分类。
为达到上述目的,本发明采用如下技术方案:
一种基于WordNet和IDF的非结构化文本的实体关系分类方法,包括以下步骤:
步骤1、获取非结构化的文本训练集,对数据集中的每个句子进行预处理之后,利用Word2Vec得到句子的矩阵表示;
步骤2、利用WordNet扩展句子外部语义信息,更新句子的矩阵表示;
步骤3、利用IDF扩展句子内部语义信息,更新句子的矩阵表示;
步骤4、计算句子中每个单词的位置信息,并将其加入到该词的词向量中,更新句子的矩阵表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学;阿里巴巴集团控股有限公司,未经上海大学;阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911345611.9/2.html,转载请声明来源钻瓜专利网。





