[发明专利]一种基于NLP与触发器的实体从属关系抽取识别方法、系统、装置和存储介质在审
| 申请号: | 202210224702.2 | 申请日: | 2022-03-07 | 
| 公开(公告)号: | CN114625885A | 公开(公告)日: | 2022-06-14 | 
| 发明(设计)人: | 胡志臣;许小龙;胡祥奔;程勇 | 申请(专利权)人: | 南京信息工程大学 | 
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/295;G06F40/216;G06N3/04;G06N3/08 | 
| 代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 | 
| 地址: | 224002 江苏省盐城*** | 国省代码: | 江苏;32 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 基于 nlp 触发器 实体 从属 关系 抽取 识别 方法 系统 装置 存储 介质 | ||
一种基于NLP与触发器的实体从属关系抽取识别方法、系统、装置和存储介质,本发明所述方法在分析文档上下文语段,构造实体和关系后,通过聚类算法,将松散的子类实体,与父类实体相互关联,形成紧密的查询结构;在文本实体识别过程中,采用构建触发器的方法进行触发要素的选择,提高文字识别准确率,能够更快速、便捷地寻找到识别目标;在数据集构建中,采取了多路匹配的方式,有利于提升整体的数据集构建效率,减少人工标注所带来的时间成本。在针对文本关系进行抽取过程中,采用双向长短期神经网络并结合注意力机制,提升文本中抽取实体之间关系的准确率。
技术领域
本发明涉及一种基于NLP与触发器的实体从属关系抽取识别方法、系统、装置和存储介质,属于自然语言处理技术领域。
背景技术
自然语言处理是一门把语言学、计算机科学、数学等相关领域融为一体的交叉学科,自然语言处理技术逐渐渗透到各行各业用于文本数据挖掘和信息存储。从命名实体识别的角度来看,在满足将对非结构化文本分析和理解的同时,需要保证数据的可扩展性。从关系抽取的角度来看,在满足对实体抽取后实体之间的关系链接是对数据处理与关联的延伸。科学信息领域中对文本数据分析量的不断增加,特别是在大数据时代,数据挖掘处理需要学习分析海量的标签数据集。为了应对与日俱增的分析需求,需要领域专家建立庞大的实体与实体关系。当前专业领域普遍依赖人工标注文本信息,人工标注会消耗大量时间,影响数据时效性,制约了信息化产业的动态发展。
为了应对科学领域节约时间开销的迫切需求,在自然语言处理支撑的文本数据中,如何实现面向异构数据源的文本信息挖掘方法是工业界和学术界关注的热点。通过触发器,可以实现文本关键信息的筛选。而命名体识别技术的发展则推动文本数据的高效处理能力。通过触发要素,可以实现关键信息的自定义,从而减少数据中干扰信息数量,降低数据集生成过程中,多路匹配所产生的标签噪音。但是,在关系抽取过程中,除了标准文本读取文字产生的误差之外,还需要综合考虑实体之间所引起的噪声冲突。因此,需要设计合理的关系抽取技术,实现对大量文本的批处理。
命名体识别与关系抽取技术已经广泛应用于文本数据挖掘和存储。通过词性分析技术可以实现对不同关键词热点的信息筛选。例如文献“Peng Zhou et al.“Attention-Based Bidirectional Long Short-Term Memory Networks for RelationClassification”Meeting of the Association for Computational Linguistics(2016).”主要加入注意力机制对文本进行关系分类。文献“F.Hussain,U.Qamar andS.Zeb,A Novel Approach for Searching Linguistic Synonyms through Parts ofSpeech Tagging,2016 IEEE/WIC/ACM International Conference on Web Intelligence(WI),Omaha,NE,USA,2016,pp.465-468,doi:10.1109/WI.2016.0076.”提出一种面向开放文本数据的词性标记方法,是面向短文本数据,通过同义词标注实现了相近文本语句的信息抽取。
当前的词性分析忽略了在专业领域数据挖掘过程中价值信息的识别。随着词性分析技术的广泛应用,领域的文本产生热点的数据日益增长,将会对文本中关键信息及其关系识别带来技术挑战。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种能快速、准确的抽取实体之间关系的基于NLP与触发器的实体从属关系抽取识别方法及识别系统、识别装置和存储介质。
为达到上述目的,本发明是采用下述技术方案实现的:
一种基于NLP与触发器的实体从属关系抽取识别方法,包括:
根据训练文本的上下文语段,获取训练文本中自定义多类实体及实体列表;
根据实体列表,通过聚类处理得到实体从属关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210224702.2/2.html,转载请声明来源钻瓜专利网。





