[发明专利]中文命名实体识别方法、系统、设备及存储介质在审

专利信息
申请号: 202110644825.7 申请日: 2021-06-09
公开(公告)号: CN113420557A 公开(公告)日: 2021-09-21
发明(设计)人: 徐卫志;龙开放;赵晗;于惠;范胜玉;耿艳芳;曹洋;蔡晓雅;李广震 申请(专利权)人: 山东师范大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/242;G06F16/33;G06N3/04;G06N3/08;G06N7/00
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 黄海丽
地址: 250014 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 中文 命名 实体 识别 方法 系统 设备 存储 介质
【说明书】:

本公开公开了中文命名实体识别方法、系统、设备及存储介质,包括:获取待识别的句子;将待识别的句子,输入到训练后的中文命名实体识别模型中,得到中文命名实体。本发明可以在自然语言描述的文本中提取出每个节点的多个特征信息。可以为每个待识别的句子识别出对应的中文命名实体。

技术领域

本公开涉及自然语言处理技术领域,特别是涉及中文命名实体识别方法、系统、设备及存储介质。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。

随着深度学习的不断发展,自然语言处理这个领域也得到了更广泛的关注,尤其是对于上游任务,如:命名实体识别,上游任务的好坏直接影响下游任务的性能与精准度。命名实体识别在关系抽取,问答系统,情感分析,知识图谱的建立等任务中扮演着重要的角色。所以,如何提高命名实体识别的性能成为了当前迫切需要解决的任务。

自然语言处理是计算机科学领域的一个重要方向,它被称为“人工智能皇冠上的明珠”。自然语言处理是一门融合了语言学、计算机科学、数学于一体的学科,它的研究涉及到自然语言(人们日常使用语言)。自然语言处理主要应用于舆情监测、自动摘要、文本分类、机器翻译、语音识别、问题回答、文本分类等方面。

命名实体识别又被称为是“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。它的任务主要是包括这两个部分,一是实体边界识别,二是确定实体类别,即确定实体是人名、地名、机构名、或其他等。命名实体识别是自然语言处理的上游任务,命名实体识别的性能好坏直接影响下游任务的性能。

目前,对于中文命名实体识别(NER)的方法主要包括基于字符的NER模型和基于词的NER模型,中文命名实体识别与英文的命名实体识别因为语言类别的问题,中文NER比英文NER面临的挑战更多。如,中文NER不像英文NER一样天然有空格作为分割,中文没有明确的实体边界,其次,中文的组成结构复杂,且大多实体包含实体嵌套问题,故此,提升中文NER性能任务迫在眉睫。

命名实体识别的主要任务是识别文档中的特定的实体,如:人名、地名、时间、机构名等。然后再给这些实体打上特定的标签,一般情况下打标签的方式有BIO、BIOES这两种方式,如用BIOES打标签,B表示实体的开头,I表示实体的中间,E是实体的结尾,S表示的是单个实体,O表示不是要识别的实体。BIO方式跟BIOES一样,只是实体结尾的标签用I代替,单个实体直接用B表示。

在传统方法中,有基于词典的命名实体识别与基于规则的命名实体识别。基于词典的命名实体识别在很大程度上依赖语料库,同时会出现冲突问题导致性能下降。基于规则的命名实体识别,利用手工构造模板,通过实体与规则进行类型判断,但是规则的构建依赖于具体的语言、领域与文本风格,需要很多专业知识,耗时耗力耗资。目前最常用的有基于统计学习的命名实体识别,如隐马尔可夫模型,最大熵模型、支持向量机模型,条件随机场模型等。

发明内容

为了解决现有技术的不足,本公开提供了中文命名实体识别方法、系统、设备及存储介质;

第一方面,本公开提供了中文命名实体识别方法;

中文命名实体识别方法,包括:

获取待识别的句子;

将待识别的句子,输入到训练后的中文命名实体识别模型中,得到中文命名实体。

第二方面,本公开提供了中文命名实体识别系统;

中文命名实体识别系统,包括:

获取模块,其被配置为:获取待识别的句子;

识别模块,其被配置为:将待识别的句子,输入到训练后的中文命名实体识别模型中,得到中文命名实体。

第三方面,本公开还提供了一种电子设备,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110644825.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top