[发明专利]一种用于含噪稀疏文本的语义关系抽取方法有效
申请号: | 201910806205.1 | 申请日: | 2019-08-29 |
公开(公告)号: | CN110674642B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 赵翔;庞宁;谭真;郭爱博;殷风景;唐九阳;葛斌;肖卫东 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/211;G06F18/25;G06N3/0464;G06N3/084 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;张燕华 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 稀疏 文本 语义 关系 抽取 方法 | ||
1.一种用于含噪稀疏文本的语义关系抽取方法,其特征在于,包括以下步骤:
步骤1,建立中文文本训练样本集;
步骤2,构建语义关系抽取模型;
步骤3,训练语义关系抽取模型;
步骤4,建立待抽取语义的数据集;
步骤5,利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系;
所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据,每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签;
所述的依存路径为最短依存路径,定义为:在句法分析依存树中实体对之间的最短路径;
所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层,上述各层先后依次连接,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口;所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间;所述卷积层为两个独立的卷积网络,分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征;所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合;所述全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系。
2.根据权利要求1所述的语义关系抽取方法,其特征在于,所述的语义关系抽取模型还包括多实例学习机制模块,从全连接层中获取数据,将学习的结果反馈到卷积层,指导卷积层的计算操作;所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例,丢弃其他实例,抑制噪声实例影响。
3.根据权利要求2所述的语义关系抽取方法,其特征在于,训练语义关系抽取模型的过程为:初始化后,以交叉熵作为损失函数,通过多实例学习方法,采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数,每迭代一次检验一次梯度,以寻求各网络层权重和偏置的最优解,迭代多次后得到本次训练的最优语义关系抽取模型。
4.根据权利要求2所述的语义关系抽取方法,其特征在于,所述输入层的输入接口数量为2,分别对应分词序列和依存路径,每一条实例的输入定义如下:其中,x代表输入的分词序列,代表分词序列中的第i个分词,s代表输入的依存路径,代表依存路径上的第i个分词;
所述的嵌入层分别将输入的分词序列和依存路径上的每一个分词映射为向量表示,每个分词的向量表示包含词向量、位置向量和词性标注向量三部分,其中词向量通过Word2Vec算法预先训练得到,包含分词的语义信息,位置向量通过随机初始化得到,包含分词在分词序列或依存路径中的位置信息,词性标注向量表示为单位向量,包含分词的词性信息;在分词序列或者依存路径中的任意一个分词可以进行如下的向量表示:wi=[vword:vposition:vtag],其中,vword,vposition和vtag分别表示分词的词向量,位置向量和词性标注向量,wi的维度为k;
将每一个分词向量表示按照分词序列和依存路径中的顺序先后水平连接,得到分词序列和依存路径的向量表示,表示为:其中,X代表分词序列经过嵌入层之后的向量表示,Wix代表分词序列中第i个分词的向量表示,S代表依存路径经过嵌入层之后的向量表示,Wis代表依存路径中第i个分词的向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910806205.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于GPT-2模型的中文电子病历实体识别方法
- 下一篇:一种免手操作的翻译机