[发明专利]序列标注方法及装置有效
| 申请号: | 202010334370.4 | 申请日: | 2020-04-24 |
| 公开(公告)号: | CN111666734B | 公开(公告)日: | 2021-08-10 |
| 发明(设计)人: | 叶蔚;张世琨;盛中昊;刘学洋;胡文蕙 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/289;G06F40/205;G06N3/04;G06N3/08 |
| 代理公司: | 北京华创智道知识产权代理事务所(普通合伙) 11888 | 代理人: | 彭随丽 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 序列 标注 方法 装置 | ||
本发明实施例提供一种序列标注方法及装置。其中,方法包括:获取待分析的句子;将待分析的句子输入至序列标注模型,输出句子的分词结果及每个词的标注结果;其中,序列标注模型是基于样本句子及样本句子对应的分词和标注数据进行基于强化学习的训练获得的。本发明实施例提供的序列标注方法及装置,通过强化学习技术隐式地学习文本的分词信息,能缓解中文序列标注中分词与目标的不匹配。
技术领域
本发明实施例涉及计算机技术领域,更具体地,涉及一种序列标注方法及装置。
背景技术
序列标注技术是自然语言处理领域的一项重要技术,如词性标注、组块分析、命名实体识别等基础任务都可以使用序列标注技术解决。传统的方法使用隐马尔科夫模型、最大熵马尔科夫模型和条件随机场解决问题。为了增强模型效果,许多手工特征被加入模型,如词性、地名词典等信息被集成到了命名实体识别任务中。
在中文序列标注任务中,通常要将文本先进行分词,先分词再进行序列标注的流水线容易导致分词与目标不匹配的问题,尤其是诸如命名实体识别这样级别的任务。
发明内容
本发明实施例提供一种序列标注方法及装置,用以解决或者至少部分地解决现有技术存在的分词与目标不匹配的缺陷。
第一方面,本发明实施例提供一种序列标注方法,包括:
获取待分析的句子;
将待分析的句子输入至序列标注模型,输出所述句子的分词结果及每个词的标注结果;
其中,所述序列标注模型是基于样本句子及所述样本句子对应的分词和标注数据进行基于强化学习的训练获得的。
优选地,所述序列标注模型包括判别子模型和策略网络;
相应地,所述将待分析的句子输入至序列标注模型,输出所述句子的分词结果及每个词的标注结果的具体步骤包括:
所述将待分析的句子中的当前字输入至所述判别子模型,输出所述当前字的上下文表征;
将所述当前字的上下文表征输入至所述策略网络,输出是否在当前字分词的决策结果;
根据是否在待分析的句子中每个字分词的决策结果及每个字的上下文表征,获取所述句子的分词结果及每个词的标注结果。
优选地,所述将待分析的句子输入至序列标注模型,输出所述句子的分词结果及每个词的标注结果之前,还包括:
根据所述样本句子及所述样本句子对应的分词和标注数据,对序列标注模型进行基于强化学习的训练,获得训练好的序列标注模型。
优选地,所述根据所述样本句子及所述样本句子对应的分词和标注数据,对序列标注模型进行基于强化学习的训练,获得训练好的序列标注模型的具体步骤包括:
根据所述样本句子及所述样本句子对应的分词和标注数据,分别对所述判别子模型和所述策略网络进行预训练;
根据所述样本句子及所述样本句子对应的分词和标注数据,对预训练后的所述判别子模型和所述策略网络进行联合训练,获取所述训练好的序列标注模型。
优选地,所述根据所述样本句子及所述样本句子对应的分词和标注数据,对序列标注模型进行基于强化学习的训练,获得训练好的序列标注模型之前,还包括:
对中文序列标注的语料和标注数据进行预处理,获取所述样本句子及所述样本句子对应的分词和标注数据。
优选地,所述判别子模型包括上层长短期记忆网络、下层长短期记忆网络和条件随机场。
优选地,所述策略网络为多层全连接神经网络。
第二方面,本发明实施例提供一种序列标注装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010334370.4/2.html,转载请声明来源钻瓜专利网。





