[发明专利]基于BERT神经网络的中文人物关系抽取构建方法在审
申请号: | 202110186063.0 | 申请日: | 2021-02-14 |
公开(公告)号: | CN112926325A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 刘登涛;张建;王谦超 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 神经网络 中文 人物 关系 抽取 构建 方法 | ||
本发明涉及一种基于BERT神经网络的中文人物关系抽取方法,用于解决非结构化的中文文本内人物关系难以抽取的技术问题,具体内容包括数据收集模块,对训练数据的获取、清洗、标注;特征获取与关系抽取模块,包括对句子上下文编码、命名实体识别、实体关系的预测;关系存储模块和应用服务模块,利用图数据库存储文本人物关系抽取出的人物实体关系图谱,基于SOA设计核心业务服务API接口,提供数据交互服务,Docker容器封装系统应用,使系统平台具有高可移植性和可扩展性,最终提供文本人物关系知识图谱功能。本发明能够有效地解决目前所面临的人物关系抽取召回率低、关系不准等问题。以达到更好的关系抽取平台服务。
技术领域
本发明属于计算机自然语言处理领域,是一种基于BERT神经网络的对中文人物关系进行抽取的方法。不同于目前主流的基于传统方法的依存句法分析的方法,本发明方法是一种深度学习的抽取方法,相比于传统中文人物关系抽取,本系统通过基于BERT的深度学习的方法能够在一定程度上缓解基于传统中文人物关系抽取模型的弊端,即对特征的选取是由模型训练完成,在没有人工干预的条件下得到高性能的关系抽取模型。在最终对文本的抽取当中,有着非常高的准确率和召回率。
背景技术
随着大数据时代的到来和信息技术的不断发展,现如今的社会已经进入到了人工智能(Artificial Intelligence,简称AI)时代。各种各样的人工智能应用产品不断的出现,在诸多领域中发挥着各样的重要作用,比如在AI+农业、AI+医疗、AI+自动驾驶、AI+教育等人工智能与传统行业相结合的全新应用场景中大放异彩。而在人工智能领域当中有一个非常重要的子领域--自然语言处理领域(Natural Language Processing,简称NLP),在NLP当中人物关系抽取又作为NLP的重要内容之一有着十分广阔的应用前景。
随着大数据时代的到来,数据规模不断增大,信息过载的问题日益严重,面对领域交叉、海量异构、碎片化的激增的各种文本数据,如何才能快速高效的准确地获取关键信息有着重大意义。从当中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,这时实体关系抽取就发挥了重要作用,此技术可以从网络中海量的非结构化数据中抽取特定的实体、事件、关系等信息,进而转化成符合人类认知世界的表示形式,形成结构化的数据存储在数据库中,为各类用户提供一种有组织、可查询、可使用的数据知识。从大数据到大知识[3]的过程中,人物关系抽取研究对于智能语义搜索、人物知识图谱构建、问答系统等领域具有重要意义。
(1)智能语义搜索中的应用
随着互联网的发展,如今人们越来越依赖搜索引擎,当大家遇到解决不了的问题或有不懂的信息时都会习惯性的去百度、谷歌、bing、360等搜索引擎搜索一下来获取想要的结果。随着搜索引擎相关技术的不断发展,在信息检索过程中不是简单的关键词匹配,搜索引擎会自动根据语义知识进行联想,搜索并反馈用户真正需要的信息,其能实现数字、字母的精准搜索,而不是模糊匹配,并且数据库增删改可实时同步到搜索引擎中,在搜索引擎为人们提供便利的背后就有实体关系抽取这项技术为其提供了支持。例如,当检索框中输入“猪八戒的师兄用的是什么武器”,面对此类复杂的查询时,搜索引擎会直接返回其猪八戒师兄的姓名(孙悟空)以及其别名,表明搜索引擎返回结果过程中会对用户输入的内容进行语义分析,通过实体关系抽取来读懂用户的问题,提炼出问题主体,然后与知识图谱中对应的节点相链接,对搜索结果进行去重并推送精准的、用户想要的结果。
(2)人物知识图谱构建的应用
人物知识图谱构建技术的第一步就是信息抽取,而人物关系抽取是信息抽取的核心内容之一,其可以通过人物识别和关系抽取得到有效的关系三元组。最终在人与人之间构建知识图谱,以实现跨姓的大知识挖掘和推理服务。例如在家庭人物图谱当中,我们可以轻易的得到与主人公直接相关和简介相关的各种人物及与主人公的关系;在历史人物图谱当中,通过使用历史人物图谱掌握和评价历史人物的方法在历史学习和探究中具有重要的作用;在小说人物图谱当中可以更快的梳理清楚人物关系,以达到对小说更深刻的理解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110186063.0/2.html,转载请声明来源钻瓜专利网。