[发明专利]半自动化分词语料标注训练装置有效
申请号: | 201910455093.X | 申请日: | 2019-05-29 |
公开(公告)号: | CN110287482B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 代翔;崔莹;黄细凤;孙涛;李强 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06K9/62 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 半自动 化分 词语 标注 训练 装置 | ||
本发明一种半自动化分词语料标注训练装置,旨在解决分词语料标注及训练过程中使用语料存在的弊端。本发明通过下述技术方案予以实现:文本语料标注准备模块对待标注语料、分词语料的管理,通过基于集成词典的双向最大匹配分词、CRF、JIEBA、等多种分词算法,将生语料分词标注工作提交给半自动化语料分词标注模块,创建分词标注任务,选择标注适用算法模型,开展自动标注,在自动标注结果融合的基础上,将文本语料标注准备模块产生的训练模型语料和标注模型反馈至反馈式模型学习训练模块,选择和模型学习训练,调用统一训练模型接口生成核心词典,更新分词训练模型表,建立标注算法综合评估模型对模型标注效果进行评估,完成新的分词标注任务。
技术领域
本发明涉及文本挖掘技术领域,尤其涉及分词语料半自动化标注训练装置。
背景技术
词是最小的、能够独立活动的、有意义的语言成分,但汉语中词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。分词的准确度和词性标注的准确度密切相关,有机地将分词过程和词性标注过程融合在一起,有利于消除歧义和提高整体效率。中文句子是由连续的字组成,字与字之间没有空格分离。词性标注是指为句子中的每个词确定一个合适的词性的过程。中文分词又是中文信息处理的第一道“工序”,在许多应用领域(文本分词、事件抽取、文本摘要、信息检索等)中扮演着极其重要的角色。分词和词性标注都是对语料进行基本的处理,统称为语料分词标注。然而有标注的分词语料很少,对于分词所在的大任务效果的提高是间接的,在一个实际系统中,不同分词错误的影响是非常不一样的,另外分词语料获得的成本非常昂贵,人工很难熟练地按照某一个标准前后一致地去标注生语料,使得在大数据量大计算能力的今天,分词语料的规模相当有限。词性标注在信息处理流程上是紧接着分词之后的步骤,而且所采用的算法原理与分词类似,所以在很多系统的实现中,常常对分词和词性标注进行一体化的处理。然而,目前领域内分词语料相对匮乏,且分词语料标注工作目前主要通过人工标注来完成,全人工对语料做词性标注就像蚂蚁一样忙忙碌碌,是非常耗费时的,并且存在语料标注质量差、标注过程繁琐、标注效率低、人力资源成本高等问题。同时,已有分词语料标注工具存在标注方法单一、无法对标注方法模型进行自动更新等弊端,因此,迫切需要一套能够辅助人工标注语料的半自动分词标注和训练平台来解决以上问题。如果有一个半自动化的分词标注方法和基于该方法设计的半自动化标注装置,能够对待处理的分词语料完全自动化地,迅速给出一篇预标注结果,这样才甚好。
近年来,伴随大数据采集获取手段的高速发展,从数据中挖掘最大化价值变得尤为急迫,这对大数据的智能化分析提出了全新需求。在此背景下,机器学习、深度学习等技术在大数据应用上迅猛发展并获得了巨大成功,其技术底层使用的模型算法更多需要依赖于大量的数据标注语料作为基础训练支撑。海量数据语料标注工作对算法模型的训练有着重要影响,同时作为大数据分析过程中的基础性工作,主要支撑了大数据日常研发、算法调优、演示验证等环节,是大数据挖掘分析的核心基础。分词的关键取决于词典,目前结巴JIEBA提供的词典虽然并不是非常全,但是对于一般的应用已经足够了。结巴(jieba)插件,可以对一段中文进行分词,有三种分词模式,可以适应不同需求。中文分词(Chinese WordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法:这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
1)正向最大匹配法(由左到右的方向)
2)逆向最大匹配法(由右到左的方向):
3)最少切分(使每一句中切出的词数最小)
4)双向最大匹配法(进行由左到右、由右到左两次扫描)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910455093.X/2.html,转载请声明来源钻瓜专利网。