[发明专利]一种基于多粒度认知的领域知识库实体识别方法有效
申请号: | 202111213071.6 | 申请日: | 2021-10-19 |
公开(公告)号: | CN113886602B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 林锋;李攀锋;陈樱珏;钟泠韵 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F16/35;G06N3/0442;G06N3/045;G06N3/047;G06N3/084 |
代理公司: | 成都帝鹏知识产权代理事务所(普通合伙) 51265 | 代理人: | 邰思翰 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 粒度 认知 领域 知识库 实体 识别 方法 | ||
本发明公开一种基于多粒度认知的领域知识库实体识别方法,包括步骤:获取对应领域的数据文件,根据这些文件构建语料库,并将语料库分成训练集和测试集;对训练集数据进行字嵌入处理,获得自嵌入矩阵;将字嵌入矩阵分别作为实体识别模型中字粒度命名实体识别模块和全局粒度实体数量预测模块的输入,分别对两个模块进行训练;将两个粒度的损失函数进行联合,得到最终模型优化目标;利用获得的实体识别模型对测试集中的样本进行分类,识别该领域知识库实体。本发明能够解决小规模语料库的实体识别问题,在此基础上完成对应领域知识库的构建。
技术领域
本发明属于知识库实体识别技术领域,特别是涉及一种基于多粒度认知的领域知识库实体识别方法。
背景技术
知识库能够以结构化的形式描述客观世界中概念、实体及其关系,完成海量信息的有效组织、管理和理解。知识库系统在知识融合、智能问答、大数据决策等应用上的潜力受到了广泛的关注。知识库可以分为通用知识库和领域知识库两类,其中通用知识库是指面向通用一般领域的知识库,其通常覆盖很多方面,而领域知识库则是在特定的领域背景下所构建的知识库。不管是哪一类型的知识库,其本质都是一个以实体为节点的巨大网络,包括实体、实体属性以及实体间的关系。因此实体识别是进行知识库构建的第一步。
实体识别是指从文本中识别出具有特定意义的实体,并对其确定类别。实体识别在各种自然语言处理应用中发挥着重要作用,如信息抽取、信息检索、自动文本摘要、机器翻译、知识库等等。关于实体识别,国内外已经有了相当广泛的研究,用来实体识别的方法大致可以分成三类:基于规则的方法、基于传统机器学习的方法和基于深度学习的方法。基于规则的方法依赖于大量的手工规则,不需要语料的标注。但是规则的制定是耗时耗力的,在某些专业领域需要有专业知识的支持。基于规则的方法的可移植性受到限制,对于来自新领域的文本,需要通过更新规则来获得好的性能。因此,现在该方法慢慢地较少被使用。随着传统机器学习的发展,许多传统机器学习的方法被成功应用到实体识别任务中去,如隐马尔可夫模型、最大熵模型、条件随机场等等。除了单独使用机器学习算法外,也可以将多个方法进行结合,来完成实体识别任务。基于深度学习的方法,如双向长短期记忆神经网络模型,也成功应用到了实体识别任务中去。基于深度学习的方法相对于基于传统机器学习的方法,无需精心的特征工程,它能自动捕获输入文本中的上下文依赖,且能得到很好地表现。
然而,在实际的场景中,尤其构建某些特定领域的知识库时,由于样本匮乏或者受限于标注成本,造成可使用的训练数据较少,基于常规深度学习的方法对字词特征向量的学习效果欠佳。为此,出现了很多基于多任务学习的命名实体识别研究,如联合分词、词性标注、语义角色标注等任务。这些方法通过与其他相关任务的联合学习,对字词特征向量的捕捉效果有一定的提升,但需要额外进行辅助任务数据标注,在标注成本有限的场景下并不适用。
发明内容
为了解决上述问题,本发明提出了一种基于多粒度认知的领域知识库实体识别方法,能够解决小规模语料库的实体识别问题,在此基础上完成对应领域知识库的构建。
为达到上述目的,本发明采用的技术方案是:一种基于多粒度认知的领域知识库实体识别方法,包括步骤:
S10,获取对应领域的数据文件,根据这些文件构建语料库,并将语料库分成训练集和测试集;
S20,对训练集数据进行字嵌入处理,获得字嵌入矩阵;
S30,将字嵌入矩阵分别作为实体识别模型中字粒度命名实体识别模块和全局粒度实体数量预测模块的输入,分别对两个模块进行训练;将两个粒度的损失函数进行联合,得到最终模型优化目标;
S40,利用获得的实体识别模型对测试集中的样本进行分类,识别该领域知识库实体。
进一步的是,在所述步骤S20中,对训练集数据进行字嵌入处理,获得字嵌入矩阵,包括步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111213071.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:户外救生旋转软梯和户外救生旋转软梯组
- 下一篇:一种编织袋成品捆扎设备