[发明专利]一种序列标注的方法及装置有效
申请号: | 201611156464.7 | 申请日: | 2016-12-14 |
公开(公告)号: | CN108228557B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 韩旭红 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/279 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 序列 标注 方法 装置 | ||
本发明公开了一种序列标注的方法及装置,涉及互联网技术领域,主要目的在于解决由于高层序列标注结果依赖于低层序列标注结果的准确率,导致高层标注结果准确率低的问题。本发明的技术方案包括:对每一层选取标注特征,构建序列标注模型;通过训练文本对所述序列标注模型进行训练,获得训练标注结果;通过反向传播算法对所述序列标注模型进行迭代修正,获得最终的序列标注模型;通过所述最终的序列标注模型对待标注文本进行序列标注,获得最终标注结果。本发明能够提高最终标注结果的准确性。
技术领域
本发明涉及互联网技术领域,特别是涉及一种序列标注的方法及装置。
背景技术
自然语言处理是一门融合语言学、计算机科学、数学的科学,研究实现人与计算机之间用自然语言进行有效通信的理论和方法。在自然语言处理中,序列标注模型是常用的模型,被广泛应用于文本处理等相关领域,例如分词标注、词性标注、命名实体识别标注、依存句法分析标注等方面序列标注。
在序列标注模型的使用过程中,对于多层标注任务来说,由于大多标注层次之间具有密切关联,高层标注模块可以建立在低层标注模块分析的基础上,通过低层序列标注结果对高层序列进行标注。就上述举例而言,所述高层标注模块指依存句法分析标注,所述低层标注模块指分词标注、词性标注、命名实体识别标注,而大多词性标注依赖于分词标注结果,命名实体识别标注依赖于分词标注和词性标注结果,依存句法分析标注依赖分词标注、词性标注以及命名实体识别标注结果。假设分词标注结果准确率为90%,词性标注结果准确率为90%,命名实体识别标注结果准确率为90%,依存句法分析标注结果准确率为90%,则依存句法分析标注后的最终结果准确率为90%*90%*90%*90%=65.61%。
可以看出在简单的级联标注过程中,由于高层序列标注结果依赖于低层序列标注结果的准确率,容易导致标注结果准确率逐层递减。
发明内容
鉴于上述问题,本发明实施例提供了一种序列标注的方法及装置。
一方面,本发明提供了一种序列标注的方法,所述方法包括:
对每一层选取标注特征,构建序列标注模型;
通过训练文本对所述序列标注模型进行训练,获得训练标注结果;
通过反向传播算法对所述序列标注模型进行迭代修正,获得最终的序列标注模型;
通过所述最终的序列标注模型对待标注文本进行序列标注,获得最终标注结果。
另一方面,本发明提供了一种序列标注的装置,所述装置包括:
构建单元,用于对每一层选取标注特征,构建序列标注模型;
训练单元,用于通过训练文本对所述序列标注模型进行训练,获得训练标注结果;
修正单元,用于通过反向传播算法对所述序列标注模型进行迭代修正,获得最终的序列标注模型;
标注单元,用于通过所述最终的序列标注模型对待标注文本进行序列标注,获得最终标注结果。
本发明提供的序列标注的方法及装置,对每一层选取标注特征,构建序列标注模型;通过训练文本对所述序列标注模型进行训练,获得训练标注结果;通过反向传播算法对所述序列标注模型进行迭代修正,获得最终的序列标注模型;通过所述最终的序列标注模型对待标注文本进行序列标注,获得最终标注结果。与现有技术相比,能够通过反向传播算法对错误的训练标注结果依赖的特征函数进行权重降低,从而对每一层的序列标注模型进行调整,提高了最终的标注结果的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611156464.7/2.html,转载请声明来源钻瓜专利网。