[发明专利]一种基于多视角规则增强的知识抽取方法在审
| 申请号: | 202211543842.2 | 申请日: | 2022-11-30 |
| 公开(公告)号: | CN116303880A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 薛晓军;张春霞;王瞳;徐天祥;牛振东 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王松 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 视角 规则 增强 知识 抽取 方法 | ||
本发明涉及一种基于多视角规则增强的知识抽取方法,属于人工智能信息抽取技术领域。本方法从语义角色标注、开放式信息抽取和实体识别多个视角,将神经网络和规则相结合,在基于神经网络的知识抽取基础上进行规则增强,从而更加准确地进行中英文知识抽取。本方法首先加载知识抽取模型,根据输入文本的语言类型使用不同的视角和增强规则进行知识抽取。对于中文输入,从语义角色标注视角进行规则增强,对于英文输入,从实体识别和开放式信息抽取视角进行规则增强。最后,使用文本和图数据库两种形式分别对知识三元组进行存储。本方法可以补全知识三元组抽取结果中的缺失内容,去除冗余三元组,解决知识抽取中知识缺失和冗余的问题。
技术领域
本发明涉及一种基于多视角规则增强的知识抽取方法,属于人工智能信息抽取技术领域。
背景技术
知识抽取是将蕴含于海量信息源中的知识经过理解、挖掘、归纳过程进行抽取,并存储所抽取的知识,进而形成知识库。知识抽取能够从海量非结构化数据中获取结构化知识,对智能搜索、问答系统、知识推理等下游任务具有重要意义。
现有知识抽取方法是基于规则或者基于神经网络进行知识抽取,基于神经网络的知识抽取方法是目前的主流方法,然而,现有方法的知识抽取结果中存在知识冗余、知识缺失的问题,即从文本中抽取的多个知识元组存在交叉,并且部分知识元组缺失成分。本发明从语义角色标注、开放式信息抽取和实体识别多个视角,将神经网络和规则相结合,在基于神经网络的知识抽取基础上进行规则增强,从而更加准确地进行中英文知识抽取,解决知识抽取中知识冗余和缺失的问题。
发明内容
本发明的目的是为了解决知识抽取任务中知识冗余和缺失的技术问题,提出一种基于多视角规则增强的知识抽取方法。
该方法的特点是将神经网络方法和多视角规则增强相结合,并且可以进行中英文的知识抽取,多视角规则增强是从语义角色标注、开放式信息抽取和实体识别三个视角,制定对应的规则以增强知识抽取的准确性。
本发明采用的技术方案如下:
一种基于多视角规则增强的知识抽取方法,包括以下步骤:
步骤1:加载模型。
为了提高知识抽取效率,将LTP(Language Technology Plantform,语言技术平台)模型和Stanford CoreNLP(斯坦福自然语言处理)模型预加载至内存中,以执行后续步骤。LTP模型和Stanford CoreNLP模型为预训练的神经网络模型。
步骤2:输入文本,判断语言类型。
该方法的输入为非结构化文本,输入文本后,根据文本的Unicode(统一码)编码判断语言类型为中文或英文。除空格外,如果输入文本中有字符的Unicode编码位于中文Unicode编码“\u4e00”和“\u9fff”之间,则判断输入语言为中文,执行步骤3.1至步骤3.4;否则,判断输入语言为英文,执行步骤3.5至步骤3.8。
步骤3:对输入文本进行知识抽取。
步骤3.1:对中文文本进行分句和分组。
对输入文本进行中文知识抽取。根据非结构化文本中的标点符号,利用正则表达式对输入的中文文本进行分句,对每条句子进行知识抽取。为了避免内存溢出,将所有句子进行分组,每组包含固定数量的句子,以组为单位进行中文知识抽取。
步骤3.2:对分组中的句子进行分词和语义角色标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211543842.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文档识别方法及装置
- 下一篇:一种星用太阳能电池阵最大功率跟踪控制电路





