[发明专利]一种基于上下文编码和多层感知机的关系抽取方法及装置在审
申请号: | 202010765659.1 | 申请日: | 2020-08-03 |
公开(公告)号: | CN111881687A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 王功明;谢超;张娴;周庆勇;孙思清 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/253;G06F40/211;G06F40/126 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 上下文 编码 多层 感知 关系 抽取 方法 装置 | ||
1.一种基于上下文编码和多层感知机的关系抽取方法,其特征在于,
包括以下步骤:
S1:提取实体对的上下文编码信息;
S2:生成实体关系的编码信息;
S3:训练基于多层感知机的关系分类模型;
S4:使用模型抽取待处理文本的关系。
2.根据权利要求1所述的方法,其特征在于,
所述步骤S1中,实体对的上下文建模如下:
用(WA,WB)表示句子S中任意两个实体WA和WB构成实体对,这两个实体将句子S划分为三部分:WA和WB之间的子句SAB_In、WA外侧的子句SA_Out、WB外侧的子句SB_Out,WA两侧的词汇是WA_Pre和WA_Aft,词性表示为SA_Pre和SA_Aft,WB两侧的词汇是WB_Pre和WB_Aft,词性表示为SB_Pre和SB_Aft,WA和WB的实体标签分别为LA和LB,上述描述构成实体对(WA,WB)的上下文。
3.根据权利要求2所述的方法,其特征在于,
所述步骤S1包括:
S11:生成词汇的向量化编码;具体包括:
S111:计算词汇WA_Pre、WA、WA_Aft、WB_Pre、WB、WB_Aft的词嵌入EWA_Pre、EWA、EWA_Aft、EWB_Pre、EWB、EWB_Aft;
S112:拼接词嵌入结果,得到词汇的向量化编码EW=[EWA_Pre,EWA,EWA_Aft,EWB_Pre,EWB,EWB_Aft];
S12:生成词性的向量化编码;具体包括:
S121:计算词性SA_Pre、SA_Aft、SB_Pre和SB_Aft的词性嵌入ESA_Pre、ESA_Aft、ESB_Pre、ESB_Aft;
S122:拼接词性嵌入结果,得到词性的向量化编码ES=[ESA_Pre,ESA_Aft,ESB_Pre,ESB_Aft];
S13:生成实体标签的向量化编码;具体包括:
S131:计算实体标签LA和LB的标签嵌入ELA和ELB;
S132:拼接标签嵌入结果,得到实体标签的向量化编码EL=[ELA,ELB];
S14:合成上下文的向量化编码。
4.根据权利要求1所述的方法,其特征在于,
所述步骤S2中,实体关系的编码信息是采用One-Hot编码表示实体之间的关系类型,即用长度为k的向量RVeci表示关系Ri,i∈[1,k],在RVeci中,除了第i位是1外,其它位均为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010765659.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防汛功能的新能源汽车
- 下一篇:一种污染土壤修复用蒸汽浸提修复设备