[发明专利]一种基于多视角规则增强的知识抽取方法在审
| 申请号: | 202211543842.2 | 申请日: | 2022-11-30 |
| 公开(公告)号: | CN116303880A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 薛晓军;张春霞;王瞳;徐天祥;牛振东 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王松 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 视角 规则 增强 知识 抽取 方法 | ||
1.一种基于多视角规则增强的知识抽取方法,其特征在于,包括以下步骤:
步骤1:加载模型;
步骤2:输入文本,判断语言类型;
其中,输入文本后,根据文本的统一码Unicode编码判断语言类型为中文或英文。除空格外,如果输入文本中有字符的统一码Unicode编码位于中文统一码Unicode编码“\u4e00”和“\u9fff”之间,则判断输入语言为中文,否则判断输入语言为英文;
步骤3:对输入文本进行知识抽取;
步骤3.1:对中文文本进行分句和分组;
步骤3.2:对分组中的句子进行分词和语义角色标注;
步骤3.3:从语义角色标注视角,进行规则增强,生成知识三元组;
步骤3.4:获得中文知识抽取结果;
步骤3.5:对英文输入文本进行初步的开放式信息抽取;
步骤3.6:对英文输入文本进行命名实体识别;
步骤3.7:从开放式信息抽取和命名实体识别视角,进行规则增强,生成知识三元组;
步骤3.8:获得英文知识抽取结果;
步骤4:知识存储。
2.如权利要求1所述的一种基于多视角规则增强的知识抽取方法,其特征在于,步骤3.3从语义角色标注视角进行规则增强包括:
步骤3.3.1:对于每个语义角色标注结果,施事Arg0和受事Arg1都存在时,根据分词结果和语义角色标注的位置,确定Arg0为主体,确定Arg1为客体。对于主体相同的多个三元组,若客体存在包含关系,则取长度较大的客体作为唯一客体;
步骤3.3.2:当没有出现Arg0,出现Arg1和Arg2时,确定Arg1为主体,确定Arg2为客体;
步骤3.3.3:当没有出现Arg0和Arg2,出现Arg1时,在语义角色标注的多个结果中,从当前结果向前遍历,如果之前结果的主体不为空时,且存在Arg0和Arg1,则将Arg0作为主体;如果之前的主体为空,则向前遍历查找一个Arg0作为主体。
经过规则增强后,以主体、谓语、客体的形式生成知识三元组。
3.如权利要求1所述的一种基于多视角规则增强的知识抽取方法,其特征在于,步骤3.7从开放式信息抽取和命名实体识别视角,进行规则增强,生成知识三元组,包括:
利用实体识别结果,进行规则增强,生成更准确的知识三元组。将每个开放式信息抽取结果中的主体和实体识别结果中的每个实体进行比对,开放式信息抽取和命名实体识别视角的规则增强包括:
步骤3.7.1:对于每个开放式信息抽取结果,当主体与所识别实体相同时,对于每个实体识别结果,找到客体含有实体的所有三元组,并在每组结果中取长度最长的三元组作为有效知识三元组;
步骤3.7.2:当主体与所识别实体相同,对于没有找到符合步骤3.7.1中要求的客体时,遍历剩余元组,若当前元组的客体中包含实体,则取最长的元组作为有效知识三元组;若所有剩余元组不包含实体,则取当前元组为有效三元组;
步骤3.7.3:根据实体识别结果没有筛选出有效知识三元组时,找出开放式信息抽取结果中不重复的所有主体,记为Subs={Sub1,Sub2,…,Subi,…Subn},根据主体Subi对所有开放式信息抽取结果进行分组,取每组中长度最长的三元组为有效知识三元组;
步骤3.7.4:若经过上述规则增强没有筛选出有效元组时,以开放式信息抽取结果中最长的元组作为有效知识三元组。
4.如权利要求1所述的一种基于多视角规则增强的知识抽取方法,其特征在于,步骤4知识存储中,以文本存储和图数据库存储两种形式分别对知识三元组进行存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211543842.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文档识别方法及装置
- 下一篇:一种星用太阳能电池阵最大功率跟踪控制电路





