[发明专利]半自动化分词语料标注训练装置有效
申请号: | 201910455093.X | 申请日: | 2019-05-29 |
公开(公告)号: | CN110287482B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 代翔;崔莹;黄细凤;孙涛;李强 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06K9/62 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 半自动 化分 词语 标注 训练 装置 | ||
1.一种半自动化分词语料标注训练装置,包括:文本语料标注准备模块、半自动化语料分词标注模块、反馈式模型学习训练模块和分词标注模型效果评估模块,其特征在于:文本语料标注准备模块为标注任务提供准备,通过对不同来源的数据进行区分和语料来源选择,按来源或主题对待标注语料数据进行单一分词的预标注处理,实现对待标注语料、分词语料的管理,然后通过基于集成词典的双向最大匹配分词、条件随机场CRF、结巴JIEBA中文分词、双向LSTM网络、BI-LSTM多种分词算法,将生语料分词标注工作提交给半自动化语料分词标注模块;半自动化语料分词标注模块针对不同标注使用需求及语料特点,创建分词标注任务,选择标注适用算法模型,按标注业务规则管理开展自动标注,从集成词典的双向最大匹配分词、CRF、JIEBA、BI-LSTM多种分词算法中所选择的一种分词算法模型和业务规则,完成每一类标注任务的自动标注,基于算法模型的自动标注结果和业务规则的自动标注结果进行标注结果融合;在自动标注结果融合的基础上,依据标注业务标准进行人工干预判证,保存标注结果,将文本语料标注准备模块产生的训练模型语料和标注模型反馈至反馈式模型学习训练模块,根据已有模型和外部深度增强模型进行加载模型参数设置、模型语料选择和模型学习训练,将模型完善更新后再返回模型参数设置;调用统一训练模型接口Train生成核心词典和N-gram核心词典后,按统一模型接入接口导入外部算法模型,对模型进行更新或导出,保存包含核心词典和N-gram词典文件的分词模型文件,并更新分词训练模型表,建立标注算法综合评估模型,对模型标注效果进行评估,通过模型更新与语料标注之间的不断迭代,使用训练好的模型对平台中用于分词标注的模型进行更新,完成新的分词标注任务。
2.如权利要求1所述的半自动化分词语料标注训练装置,其特征在于:分词标注模型效果评估模块标注根据指标标准构建设置单一指标算法,按照指标计算规则对指标进行量化,根据不同标注任务采用组织相应指标构建标注算法综合评估模型,完成指标综合值计算,对标注模型效果进行反馈。
3.如权利要求1所述的半自动化分词语料标注训练装置,其特征在于:半自动化语料分词标注模块针对不同标注使用需求及语料特点,自主选择适配算法并开展自动标注,通过人工判证环节实现标注结果的干预判证。
4.如权利要求1所述的半自动化分词语料标注训练装置,其特征在于:文本语料标注准备模块根据不同来源语料创建分词标注任务;半自动化语料分词标注模块针对每一类标注任务选择效果适配的算法模型,在分词标注任务中,根据语料自动标注效果配置CRF、JIEBA、BI-LSTM算法选择CRF、JIEBA、BI-LSTM分词算法完成自动标注。
5.如权利要求1所述的半自动化分词语料标注训练装置,其特征在于:模型学习训练模块针对特殊标注任务创建业务标注规则,并对标注业务规则进行管理,并且标注业务规则包括业务字典和正则表达式;反馈式模型学习训练模块针对内外部标注模型算法,提供模型学习训练、反馈更新能力,采用标注业务规则对语料进行自动标注。
6.如权利要求1所述的半自动化分词语料标注训练装置,其特征在于:分词标注模型效果评估模块对基于算法模型的自动标注结果和基于业务规则的自动标注结果进行融合处理;在自动标注融合处理结果基础上,依据标注业务标准,人工对标注结果进行修改、确认和保存。
7.如权利要求1所述的半自动化分词语料标注训练装置,其特征在于:文本语料标注准备模块对不同来源语料选择和管理,按不同标注任务保存为待标注的文本语料,即生语料;在半自动化语料分词标注模块中,创建相应的分词标注任务,并选择适用的标注算法模型,基于所选的算法模型对分词任务语料进行自动预标注,同时,针对数据所处领域的特殊性,结业相关业务规则进行基于业务规则的自动预标注,采用投票法对两类标注结果进行融合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910455093.X/1.html,转载请声明来源钻瓜专利网。