[发明专利]基于配图的命名实体识别方法、装置以及设备有效
申请号: | 202110014000.7 | 申请日: | 2021-01-06 |
公开(公告)号: | CN112329471B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 李直旭;陈志刚;陈大伟;何莹 | 申请(专利权)人: | 科大讯飞(苏州)科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 常小溪;王立民 |
地址: | 215123 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 命名 实体 识别 方法 装置 以及 设备 | ||
本发明公开了一种基于配图的命名实体识别方法、装置以及设备。本发明的构思在于针对特定场景中输入文本存在信息不足、形式不统一,使得文本中某些含义不明确的对象难以被识别的问题,引入该场景所附带图像的属性信息以及文本的深层信息以辅助命名实体识别处理,尤其地,本发明提出将图像信息进行文本层面转化,使得图像属性与文本深层信息及文本基本信息能够统一,这样再将文本基本信息、深层信息、配图属性信息以及图像基本信息进行多模态综合处理时,一方面可以弥补输入文本信息不足的问题,另一方面可以降低图像和文本的空间异构性,使得文本与图像可以充分进行深层次的交互和结合,从而能够大幅提升该场景下命名实体的识别有效率和准确性。
技术领域
本发明涉及知识图谱领域,尤其涉及一种基于配图的命名实体识别方法、装置以及设备。
背景技术
命名实体识别(Named Entity Recognition,简称NER)是信息抽取的关键技术,命名实体识别的主要任务是识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,实现过程通常是先确定出输入文本中实体的边界范围,再确定实体的类型标签。
目前,对于语句结构良好、上下文信息充足的文本,基于BiLSTM+CRF或者Bert+CRF等技术,已经能够取得令人满意的实体识别结果了。然而,由于在一些特定的应用领域,例如社交媒体领域,待处理文本存在文本简短、上下文不足、口语化、不正确拼写、缩写等特点,导致传统的命名实体识别技术并不能取得足够好的识别效果。
发明内容
鉴于上述,本发明旨在提供一种基于配图的命名实体识别方法、装置以及设备,以及相应地提供了一种计算机可读存储介质和计算机程序产品,以解决某些特定应用环境下命名实体识别效果差的问题。
本发明采用的技术方案如下:
第一方面,本发明提供了一种基于配图的命名实体识别方法,其中,包括:
根据预定策略,获取待处理文本的深层信息以及所述待处理文本附带的配图的属性信息,其中所述属性信息以文本形式表征;
提取所述待处理文本的文本信息以及所述配图的视觉信息;
结合所述文本信息、所述深层信息、所述属性信息以及所述视觉信息进行命名实体识别处理,得到所述待处理文本的实体类型序列。
在其中至少一种可能的实现方式中,所述根据预定策略,获取待处理文本的深层信息包括:
根据预先构建的多模态知识图谱,获取待处理文本的实体知识信息,其中,所述多模态知识图谱包括若干实体以及与实体相关联的图片。
在其中至少一种可能的实现方式中,所述根据预先构建的多模态知识图谱,获取待处理文本的实体知识信息包括:
利用所述多模态知识图谱,匹配出待处理文本的若干个候选实体;
利用所述配图以及与所述候选实体相关联的图片,从所述候选实体中筛选出目标实体;
从所述多模态知识图谱中获取所述目标实体的若干知识作为待处理文本的实体知识信息。
在其中至少一种可能的实现方式中,所述利用所述多模态知识图谱,匹配出待处理文本的若干个候选实体包括:
预先构建相应于所述多模态知识图谱中的实体的别名表;
利用所述待处理文本与所述多模态知识图谱中的实体名称以及所述别名表进行匹配;
将符合预设匹配标准的所述多模态知识图谱中的实体及其一跳或多跳实体构建为候选实体集。
在其中至少一种可能的实现方式中,获取待处理文本附带的配图的属性信息包括:基于图像分类策略,获得以文本形式表达的所述配图的类型信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞(苏州)科技有限公司,未经科大讯飞(苏州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110014000.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:五电平有源中点钳位H桥变流器的叠层母排结构布局
- 下一篇:智慧校园无人图书馆