[发明专利]基于笔画卷积和词向量的中文命名实体识别方法及系统在审

专利信息
申请号: 202111641955.1 申请日: 2021-12-29
公开(公告)号: CN114298047A 公开(公告)日: 2022-04-08
发明(设计)人: 何东之;张震;王鹏飞;孙亚茹;郭隆杭 申请(专利权)人: 北京工业大学
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04;G06N3/08
代理公司: 北京汇信合知识产权代理有限公司 11335 代理人: 孙民兴
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 笔画 卷积 向量 中文 命名 实体 识别 方法 系统
【说明书】:

发明提供基于笔画卷积和词向量的中文命名实体识别方法及系统,涉及命名实体识别技术领域,包括:获取文本中各汉字对应的笔画序列及各汉字的字符特征向量;将笔画序列输入笔画卷积神经网络,获取笔画特征向量;根据文本中实体的最大长度设置滑动窗口,通过自注意力机制获取每个字在滑动窗口内的词向量;拼接文本中各汉字的笔画特征向量、词向量和字符特征向量,并输入BiLSTM网络,获取每个汉字对应每种实体标签的得分;采用CRF模型对文本中每个汉字确定一个最佳的实体标签。本发明考虑到汉字的笔画序列对汉字的影响,结合汉字的笔画特征向量、词特征向量和字符特征向量后,在进行命名实体识别,提高命名实体识别的效果。

技术领域

本发明涉及命名实体识别技术领域,尤其是涉及基于笔画卷积和词向量 的中文命名实体识别方法及系统。

背景技术

随着互联网技术的高速发展,非结构化数据不断增长,我们正处于一个 海量的、无结构的数据时代。如何高效地管理数据,从非结构化数据中提取 有效的信息,成为我们急需解决的问题。

命名实体识别(Named Entity Recognition,NER)的目的是从非结构化文 本中识别出已定义的命名实体,例如,人名、地名、机构名等,是信息检索 和信息抽取的基础核心任务。中文NER是NER在中文领域的一个划分,由 于汉字自身的特点,中文NER仍存在许多难题。中文NER的主要困难有以 下几点:1)中文字符通常存在一字多义,在不同的文本语境中,含义可能会 有很大的区别;2)中文文本没有类似英文文本中含有空格等明显的实体边界 标识符;3)中文NER研究起步较晚,相关的标注数据集较少,存在领域单 一等问题。

现有的中文命名实体识别通常存在两种方法,基于词的序列标注方法和 基于字的序列标注方法。基于词的标注方法,首先利用分词工具对文本进行 切分,然后进行实体识别,这类方法词边界也是实体边界,若在分词阶段出 现错误,那么后续的NER模型也无法正确识别该实体。基于字的序列标注方 法通常存在语义不足的情况,所以人们主要考虑如何更好地利用词信息,一 些应用者在基于字的序列标注方法基础上引入外部词汇信息,并在输入层整 合到字向量表示中,这使得改变了模型本身,同时外部词向量的引入也使得模型训练效率较低,最终对命名实体识别的准确率就降低;一些应用者在基 于字的序列标注方法基础上,仅基于笔画序列建立ElMo模型,对于命名实体 识别的有效性和准确性方面存在缺陷。

发明内容

针对上述问题,本发明提供了基于笔画卷积和词向量的中文命名实体识 别方法及系统,在命名实体识别方法中基于字的序列标注方法的基础上,考 虑到汉字的笔画序列对汉字的影响,结合汉字的笔画特征向量、词特征向量 和字符特征向量后,在进行命名实体识别,提高命名实体识别的效果。

为实现上述目的,本发明提供了基于笔画卷积和词向量的中文命名实体 识别方法,包括:

获取文本中各汉字对应的笔画序列及各汉字的字符特征向量;

将所述笔画序列输入笔画卷积神经网络,获取笔画特征向量;

根据所述文本中实体的最大长度设置滑动窗口,通过自注意力机制获取 每个字在所述滑动窗口内的词向量;

拼接所述文本中各汉字的所述笔画特征向量、词向量和字符特征向量, 并输入BiLSTM网络,获取每个汉字对应每种实体标签的得分;

采用CRF模型对所述文本中每个汉字确定一个最佳的所述实体标签。

作为本发明的进一步改进,构建汉字到笔画序列的映射表,通过所述映 射表获取各汉字对应的所述笔画序列。

作为本发明的进一步改进,所述笔画卷积神经网络通过不同窗口大小的 卷积核对所述笔画序列进行卷积,获取所述笔画特征向量。

作为本发明的进一步改进,所述笔画卷积神经网络通过不同窗口大小的 卷积核卷积得到笔画特征图,将所述特征图进行最大池化和全连接,得到笔 画特征向量,公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111641955.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top