[发明专利]基于词性信息和卷积神经网络的关系抽取方法在审

申请号：	201611232744.1	申请日：	2016-12-28
公开（公告）号：	CN106649275A	公开（公告）日：	2017-05-10
发明（设计）人：	罗强;刘世林;丁国栋;练睿;罗镇权;闫俊杰	申请（专利权）人：	成都数联铭品科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	610041 四川省成都市高新区***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于词性信息卷积神经网络关系抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及自然语言处理领域，特别涉及基于词性信息和卷积神经网络的关系抽取方法。

背景技术

随着互联网的快速发展，互联网已经成为了人们获取信息的主要渠道，互联网上的文本数据内容也呈现出指数级增长的趋势。互联网上的文本数据中包含了丰富的信息，对于我们构建知识库或知识图谱非常有用；但是人工进行相关知识提取工作量极其巨大，如果计算机能够理解并提取出有用的信息，那将具有非常重要的意义。但互联网上的文本数据几乎都是以自然语言的形式存在，即无结构化的，计算机无法直接进行处理。为了解决这个问题，信息抽取技术应运而生，信息抽取技术从无结构化的文本数据中抽取出结构化数据，包括实体、实体间关系、事件等。

关系抽取是信息抽取技术里的一项关键技术，通常通过命名实体识别技术识别出句子或语篇中的实体，再由关系抽取技术识别实体对之间的关系。关系抽取常用的方法包括：基于规则的抽取方法，基于无监督学习的抽取方法和基于监督学习的抽取方法。基于规则的关系抽取方法是人工编写规则来识别句子或者语篇中两个实体之间的关系。基于无监督学习的关系抽取方法将包括实体的句子或者语篇进行聚类，基于聚类结果进行关系识别。基于监督学习的关系抽取方法，通常将关系抽取问题转化为一个分类问题，再基于传统机器学习技术或深度学习技术进行关系分类。

目前关系抽取方法中，基于规则的方法存在明显的不足，该方法需要人工编写大量的规则，工作量非常大，不易维护，而且必须对每个领域都编写规则，不能很好的扩展到其他领域。基于无监督学习的方法，将句子或语篇进行聚类时，往往效果不是很好，存在召回率和准备率都不高的问题，而且需要很多的人工干预。基于监督学习的关系抽取算法中，基于传统的机器学习算法进行关系分类时，需要人工提炼大量的特征，通常会基于分词、词性标注及句法分析等自然语言处理工具的结果提取特征，而且需要具备特定的领域知识，工作量大。

基于深度学习进行关系分类时，不用人工做大量的特征提取，如利用卷积神经网络进行关系分类，但目前利用卷积神经网络进行关系分类时没有利用句子中词的词性信息，词性是词法分析的重要成果，对理解句子含义非常有意义，为关系分类提供非常重要的信息，能够提高关系分类的准确率，优化关系提取的效果。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供基于词性信息和卷积神经网络的关系抽取方法，将词性纳入特征信息输入到卷积神经网络中，由卷积神经网络来完成对包括词、词性和相对于待抽取关系的实体位置的信息的自动特征提取，进行实体关系的自动分类；无需手动进行特征提取，预测的效率和准确率更高。

为了实现上述发明目的，本发明提供了以下技术方案：基于词性信息和卷积神经网络的关系抽取方法，将待处理文本分词后，将由各个词的词信息向量依次排列成的矩阵，输入卷积神经网络中，由卷积神经网络进行特征抽取，进而成对待处理文本中实体关系的判断；所述词信息向量由对应词的词向量Vector1、词性向量Vector2、相对于待抽取关系第一实体的位置向量Vector3和相对于第二实体的位置向量Vector4拼接而成。

具体的，本发明基于词性信息和卷积神经网络的关系抽取方法包含以下实现步骤：

(1)对待处理文本进行分词，形成词序列，并对序列中的各个词进行对应的词性标注：

(2)建立各个词与向量之间的映射关系；

建立各个词性与向量之间的映射关系；

(3)计算序列中各个词相对于第一实体的位置，生成第一位置向量Vector3；计算句子中各个词相对于第二实体的位置，生成第二位置向量Vector4；

(4)将词序列中各个词的词向量Vector1、词性向量Vector2，第一位置向量Vector3和第二位置向量Vector4，拼接成词信息向量Vector5；并将各个词对应的词信息向量依序排列，形成词信息矩阵；

(5)将词信息矩阵输入到卷积神经网络中，进而实现实体关系分类判断。进一步的，所述步骤(2)包含以下实现过程：

(2-1)构建一个语料库；

(2-2)对语料库中的文本进行分词，并进行对应词性标注；

(2-3)对分词后形成词的进行向量转化，同一个词对应一个向量；

(2-4)将各个词性进行向量转化，同一词性对应一个向量。

作为一种优选，所述步骤(2)采用Word Embedding技术来进行词和词性的向量转化。