[发明专利]基于笔画卷积和词向量的中文命名实体识别方法及系统在审
申请号: | 202111641955.1 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114298047A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 何东之;张震;王鹏飞;孙亚茹;郭隆杭 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 孙民兴 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 笔画 卷积 向量 中文 命名 实体 识别 方法 系统 | ||
本发明提供基于笔画卷积和词向量的中文命名实体识别方法及系统,涉及命名实体识别技术领域,包括:获取文本中各汉字对应的笔画序列及各汉字的字符特征向量;将笔画序列输入笔画卷积神经网络,获取笔画特征向量;根据文本中实体的最大长度设置滑动窗口,通过自注意力机制获取每个字在滑动窗口内的词向量;拼接文本中各汉字的笔画特征向量、词向量和字符特征向量,并输入BiLSTM网络,获取每个汉字对应每种实体标签的得分;采用CRF模型对文本中每个汉字确定一个最佳的实体标签。本发明考虑到汉字的笔画序列对汉字的影响,结合汉字的笔画特征向量、词特征向量和字符特征向量后,在进行命名实体识别,提高命名实体识别的效果。
技术领域
本发明涉及命名实体识别技术领域,尤其是涉及基于笔画卷积和词向量 的中文命名实体识别方法及系统。
背景技术
随着互联网技术的高速发展,非结构化数据不断增长,我们正处于一个 海量的、无结构的数据时代。如何高效地管理数据,从非结构化数据中提取 有效的信息,成为我们急需解决的问题。
命名实体识别(Named Entity Recognition,NER)的目的是从非结构化文 本中识别出已定义的命名实体,例如,人名、地名、机构名等,是信息检索 和信息抽取的基础核心任务。中文NER是NER在中文领域的一个划分,由 于汉字自身的特点,中文NER仍存在许多难题。中文NER的主要困难有以 下几点:1)中文字符通常存在一字多义,在不同的文本语境中,含义可能会 有很大的区别;2)中文文本没有类似英文文本中含有空格等明显的实体边界 标识符;3)中文NER研究起步较晚,相关的标注数据集较少,存在领域单 一等问题。
现有的中文命名实体识别通常存在两种方法,基于词的序列标注方法和 基于字的序列标注方法。基于词的标注方法,首先利用分词工具对文本进行 切分,然后进行实体识别,这类方法词边界也是实体边界,若在分词阶段出 现错误,那么后续的NER模型也无法正确识别该实体。基于字的序列标注方 法通常存在语义不足的情况,所以人们主要考虑如何更好地利用词信息,一 些应用者在基于字的序列标注方法基础上引入外部词汇信息,并在输入层整 合到字向量表示中,这使得改变了模型本身,同时外部词向量的引入也使得模型训练效率较低,最终对命名实体识别的准确率就降低;一些应用者在基 于字的序列标注方法基础上,仅基于笔画序列建立ElMo模型,对于命名实体 识别的有效性和准确性方面存在缺陷。
发明内容
针对上述问题,本发明提供了基于笔画卷积和词向量的中文命名实体识 别方法及系统,在命名实体识别方法中基于字的序列标注方法的基础上,考 虑到汉字的笔画序列对汉字的影响,结合汉字的笔画特征向量、词特征向量 和字符特征向量后,在进行命名实体识别,提高命名实体识别的效果。
为实现上述目的,本发明提供了基于笔画卷积和词向量的中文命名实体 识别方法,包括:
获取文本中各汉字对应的笔画序列及各汉字的字符特征向量;
将所述笔画序列输入笔画卷积神经网络,获取笔画特征向量;
根据所述文本中实体的最大长度设置滑动窗口,通过自注意力机制获取 每个字在所述滑动窗口内的词向量;
拼接所述文本中各汉字的所述笔画特征向量、词向量和字符特征向量, 并输入BiLSTM网络,获取每个汉字对应每种实体标签的得分;
采用CRF模型对所述文本中每个汉字确定一个最佳的所述实体标签。
作为本发明的进一步改进,构建汉字到笔画序列的映射表,通过所述映 射表获取各汉字对应的所述笔画序列。
作为本发明的进一步改进,所述笔画卷积神经网络通过不同窗口大小的 卷积核对所述笔画序列进行卷积,获取所述笔画特征向量。
作为本发明的进一步改进,所述笔画卷积神经网络通过不同窗口大小的 卷积核卷积得到笔画特征图,将所述特征图进行最大池化和全连接,得到笔 画特征向量,公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111641955.1/2.html,转载请声明来源钻瓜专利网。