[发明专利]用于解决实体重叠与实体嵌套的多任务学习方法及系统有效
| 申请号: | 202310029462.5 | 申请日: | 2023-01-09 |
| 公开(公告)号: | CN115994537B | 公开(公告)日: | 2023-06-20 |
| 发明(设计)人: | 闫凯峰 | 申请(专利权)人: | 杭州实在智能科技有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06N3/0464;G06N3/084 |
| 代理公司: | 浙江永鼎律师事务所 33233 | 代理人: | 周希良 |
| 地址: | 310000 浙江省杭州市余*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 解决 实体 重叠 嵌套 任务 学习方法 系统 | ||
本发明属于命名实体识别技术领域,具体涉及用于解决实体重叠与实体嵌套的多任务学习方法及系统。方法包括S1,构造多任务通用数据集,并对所述多任务通用数据集进行预处理;S2,设计通用型多任务学习模型,并根据预处理后的多任务通用数据集进行训练;S3,引入优化器PCGrad,对具有负影响的梯度进行纠偏,对通用型多任务学习模型进行参数优化;S4,引入损失函数,并用于计算通用型多任务学习模型在整个前向传播过程中总的损失;S5,将优化后的通用型多任务学习模型,用于实际数据预测,最终合并所有预测结果作为最终结果。本发明具有模型抽取精度高,效果好,能够降低现有命名实体任务设计难度,提升工作效率的特点。
技术领域
本发明属于命名实体识别技术领域,具体涉及用于解决实体重叠与实体嵌套的多任务学习方法及系统。
背景技术
随着现代社会的数字化发展要求,将非结构化数据转化为结构化数据已经成了一个迫切的需求,其中最为关键的技术就是信息抽取。通常来说,信息抽取包含关系抽取,事件抽取,命名实体识别等任务,其目的是将非结构化数据转化为结构化数据。命名实体识别任务可以识别已知文本中含有独特含义的实体,关系抽取得到的是实体之间的关系,而事件抽取是在给定事件类型与事件实体要素的基础上,抽取用户感兴趣的事件。其中,命名实体识别任务是其他信息抽取任务的基石,该任务的效果直接或者间接影响其他信息抽取任务。其应用领域较广,包括军事、法律、医学等。总之,存在非结构化文本信息的领域,就存在使用命名实体识别技术抽取结构化数据的需求。
当前,命名实体识别任务的主流方法是编码器-解码器框架,其中,编码器使用主流的CNN、LSTM、BERT家族等一系列深度学习模型,使用指针网络、CRF(Conditional RandomFields, 条件随机域)等作为解码器结构的主要组成部分。但是,采用上述方法存在如下问题:
1.实体重叠问题,如“XXX”既是A标签也是B标签,有两种方法解决该问题,第一种就是使用多标签对单个字进行分类,但是这样的效果会使得计算量成指数级上升,从而导致训练资源占用更高,推理时间更长;第二种就是新增一个标签,加入原有标签体系,这也会带来一个新的问题,即最终通过规则分离新增标签,可能降低模型识别准确率。
2.实体嵌套问题,如“XXXYYY”整个为A标签,其中“XXX”为B标签,解决方案通常有两种,第一种方案也是使用多标签对单个字进行分类,这也将导致同样的问题,即训练与推理的时间延长,消耗资源较较高;第二种方案是将嵌套标签分离,即将A,B两个标签置于不同模型中训练,训练过程A,B彼此不可见,推理时将二者合并,当然,这样做也存在问题,举一个比较极端的例子:“XXXYYYZZZ”整体为标签A,“XXXYYY”为标签B,“YYYZZZ”为标签C,那就必须分离出三个模型,从而导致模型数量增多,训练成本升高,推理时间变长。
3.通常大多数实体识别任务需要大量的人工去设计任务,包括实体重叠任务中的标签合并,实体嵌套中的标签分离,都需要人工大量干预,如此,难以批量化处理相似任务,极大耗费了人力、物力、财力资源。
4.数据不均衡问题,是实体识别任务中普遍存在的问题,这将使得深度学习模型学习到的结果偏向于数据量更多的标签,通常的解决方案包括:
A.数据增强方式如随机增删数据,同音、同义词替换等,保证不同标签数量分布尽量接近。
B.使用对数据量不敏感的损失函数,如Focal loss 或者 Dice loss等。
当前,也存在一些采用多任务学习去提升模型推理效果,削减模型占用空间。关键的问题是多个解码器如何有效的向着梯度下降的方向学习,而损失函数作为其中不可或缺的一部分,如何构建一个高效的损失函数来整合不同的子任务也尤为关键。
为了解决实体嵌套与实体重叠的问题,当前使用的多个单任务设计框架与多任务学习框架设计通常如图1和图2所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州实在智能科技有限公司,未经杭州实在智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310029462.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本处理方法及装置
- 下一篇:一种视频超分辨率方法、装置、设备及存储介质





