[发明专利]基于配图的命名实体识别方法、装置以及设备有效

申请号：	202110014000.7	申请日：	2021-01-06
公开（公告）号：	CN112329471B	公开（公告）日：	2021-04-20
发明（设计）人：	李直旭;陈志刚;陈大伟;何莹	申请（专利权）人：	科大讯飞（苏州）科技有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06K9/62
代理公司：	北京维澳专利代理有限公司 11252	代理人：	常小溪;王立民
地址：	215123 江苏省苏州***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于命名实体识别方法装置以及设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于配图的命名实体识别方法、装置以及设备。本发明的构思在于针对特定场景中输入文本存在信息不足、形式不统一，使得文本中某些含义不明确的对象难以被识别的问题，引入该场景所附带图像的属性信息以及文本的深层信息以辅助命名实体识别处理，尤其地，本发明提出将图像信息进行文本层面转化，使得图像属性与文本深层信息及文本基本信息能够统一，这样再将文本基本信息、深层信息、配图属性信息以及图像基本信息进行多模态综合处理时，一方面可以弥补输入文本信息不足的问题，另一方面可以降低图像和文本的空间异构性，使得文本与图像可以充分进行深层次的交互和结合，从而能够大幅提升该场景下命名实体的识别有效率和准确性。

技术领域

本发明涉及知识图谱领域，尤其涉及一种基于配图的命名实体识别方法、装置以及设备。

背景技术

命名实体识别（Named Entity Recognition，简称NER）是信息抽取的关键技术，命名实体识别的主要任务是识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，实现过程通常是先确定出输入文本中实体的边界范围，再确定实体的类型标签。

目前，对于语句结构良好、上下文信息充足的文本，基于BiLSTM+CRF或者Bert+CRF等技术，已经能够取得令人满意的实体识别结果了。然而，由于在一些特定的应用领域，例如社交媒体领域，待处理文本存在文本简短、上下文不足、口语化、不正确拼写、缩写等特点，导致传统的命名实体识别技术并不能取得足够好的识别效果。

发明内容

鉴于上述，本发明旨在提供一种基于配图的命名实体识别方法、装置以及设备，以及相应地提供了一种计算机可读存储介质和计算机程序产品，以解决某些特定应用环境下命名实体识别效果差的问题。

本发明采用的技术方案如下：

第一方面，本发明提供了一种基于配图的命名实体识别方法，其中，包括：

根据预定策略，获取待处理文本的深层信息以及所述待处理文本附带的配图的属性信息，其中所述属性信息以文本形式表征；

提取所述待处理文本的文本信息以及所述配图的视觉信息；

结合所述文本信息、所述深层信息、所述属性信息以及所述视觉信息进行命名实体识别处理，得到所述待处理文本的实体类型序列。

在其中至少一种可能的实现方式中，所述根据预定策略，获取待处理文本的深层信息包括：

根据预先构建的多模态知识图谱，获取待处理文本的实体知识信息，其中，所述多模态知识图谱包括若干实体以及与实体相关联的图片。

在其中至少一种可能的实现方式中，所述根据预先构建的多模态知识图谱，获取待处理文本的实体知识信息包括：

利用所述多模态知识图谱，匹配出待处理文本的若干个候选实体；

利用所述配图以及与所述候选实体相关联的图片，从所述候选实体中筛选出目标实体；