[发明专利]一种用于级联地名实体识别模型的训练方法在审
申请号: | 202110837354.1 | 申请日: | 2021-07-23 |
公开(公告)号: | CN113515947A | 公开(公告)日: | 2021-10-19 |
发明(设计)人: | 金佳琪;方金云;肖茁建 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 级联 地名 实体 识别 模型 训练 方法 | ||
本发明提供一种用于级联地名实体识别模型的训练方法,所述级联地名实体识别模型是端到端模型,从输入到输出依次包括嵌入层、BiLSTM层、自注意力层以及CRF层,其中,所述嵌入层用于将语料样本的每个字映射为低维随机变量,所述自注意力层用于根据BiLSTM的输出计算级联地名文字的隐向量,所述方法包括:对级联地名语料数据进行预处理,获取训练样本;基于所述训练样本训练所述模型。
技术领域
本发明涉及自然语言处理技术领域,具体涉及命名实体识别,更具体涉及一种用于级联地名实体识别模型的训练方法。
背景技术
中文地名实体识别存在汉语分词与地名实体识别互相影响的问题,当多个地名连续出现时该问题尤难处理。近年来的地名识别方法主要可以分为下述两种:
第一种,基于规则的地名识别方法。通过将人们对地名识别的认知组织为一系列的规则,实现对文本的地名识别与抽取。例如通过识别“省”、“市”、“县”等关键词触发实体识别规则。该类方法在结构单一、样本趋同、数据集较小的情况下能够取得较好的效果,且实现简单快速。但随着数据集的扩大以及对更细粒度地名识别需求的产生,这类关键词的数量会急剧膨胀,人工化的规则编写变得繁琐低效,适用性差,且维护成本很高。
第二种,基于机器学习或深度学习模型的地名识别方法。一般是通过对大规模文本语料中已标注好的命名实体进行上下文分析,构建模型进行分析,其实质是一个序列标注问题。模型的输入为一串连续的文本,输出是对应输入文本长度的一串连续标注。常见的序列标注模型包括隐马尔可夫模型(Hidden Markov Model,简称HMM)、条件随机场(Conditional Random Fields,简称CRF)、循环神经网络(Recurrent Neural Network,简称RNN)等。
隐马尔可夫模型是一个广泛应用于标注问题的统计学模型。该模型基于齐次马尔可夫性假设和观测独立性假设,一般通过EM算法学习模型参数λ=(A,B,π),再基于这些参数,使用Viterbi算法对新进的模型输入进行标注输出,其中,A为转移概率矩阵,B为观测概率矩阵,π为初始状态概率矩阵。EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,是很多机器学习领域算法的基础。Viterbi算法是一种动态规划算法,用于寻找最有可能产生观测事件序列的维特比路径——隐含状态序列。中科院词法分析系统ICTCLAS采用的就是基于层叠马尔可夫模型的命名实体识别,在对词语进行粗粒度切分的结果集上,采用底层HMM识别出普通的无嵌套人名、地名、机构名等,再利用高层HMM模型识别出嵌套的人名、复杂地名和机构名。
条件随机场模型属于判别式模型,是给定随机变量条件X的情况下,随机变量Y的马尔可夫随机场。标注问题中所指的一般为线性链条件随机场模型。相较于HMM,CRF可以采用更多的特征函数,理论上能有较好的效果,但相对的训练更为复杂。
RNN、LSTM(Long-Short Term Memory,长短期记忆网络)等模型在序列问题上具有更良好的表现,这类模型能够更长远地考虑上下文的信息。相较于HMM和CRF,该类模型避免了对文本语料的上下文关系进行齐次马尔科夫性假设,也不需要像CRF纠结于特征函数的选择,更多的关注点在于模型调参。
现有的技术中多是针对多类融合了人名、地名、机构名的命名实体识别任务进行分析建模,没有对级联地名的划分标注问题进行深入研究。现有技术对于级联地名标注适用性有限、对于重复、缺失地名现象识别准确率低。
发明内容
为解决上述现有技术中存在的问题,提供一种用于级联地名实体识别模型的训练方法,所述级联地名实体识别模型是端到端模型,从输入到输出依次包括嵌入层、BiLSTM层、自注意力层以及CRF层,其中,所述嵌入层用于将语料样本的每个字映射为低维随机变量,所述自注意力层用于根据BiLSTM的输出计算级联地名文字的隐向量,所述方法包括:
对级联地名语料数据进行预处理,获取训练样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110837354.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种灯具
- 下一篇:带温度显示的熔化极气体保护焊焊枪