[发明专利]基于标注文本的训练数据集生成方法、系统、设备和介质有效
| 申请号: | 202010622293.2 | 申请日: | 2020-06-30 |
| 公开(公告)号: | CN111859857B | 公开(公告)日: | 2021-08-27 |
| 发明(设计)人: | 张少典;顾根;刘霄晨 | 申请(专利权)人: | 上海森亿医疗科技有限公司 |
| 主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/232;G06F40/279;G06F40/295 |
| 代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李治东 |
| 地址: | 201213 上海市浦*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 标注 文本 训练 数据 生成 方法 系统 设备 介质 | ||
本申请提供了一种基于标注文本的训练数据集生成方法、系统、设备和介质,通过获取多个待标注文本,将各原始长文本拆解为多个拆句短文本并进行去重与清洗处理;处理后存入数据库以分别分配到唯一的数据库id;采用正向最大匹配分句算法在数据库中获取对应的匹配信息;对拆句短文本进行实体/关联标注以分别生成唯一的标注id,并依据各拆句短文本获取其对应的数据库id与标注id的映射关系;根据匹配信息、及映射信息,将拆句短文本拼接为包含实体/关联标注的标注长文本,以供作为训练集数据。本申请能大幅降低企业人工标注的成本,确保重复文本标注一致性,同时能够降低模型算法训练时语料不一致造成的干扰,提升了模型学习的准确率。
技术领域
本申请涉及训练集数据生成技术领域,特别是涉及一种基于标注文本的训练数据集生成 方法、系统、设备和介质。
背景技术
训练数据的匮乏是自然语言处理NLP领域里一个永恒的问题,缺乏标注数据、样本存在 大量噪声、数据存在偏差都是很普遍的现象,在自然语言处理领域,特别是垂直领域(比如 医学),这种现象更明显,当前业界标注主要存在如下问题:
1)对于企业来说大规模的人工数据标注成本极高;2)对于标注人员来说医学数据要求 标注人员具有专业的医学知识和基本的语言学常识;3)人工标注工作量大、枯燥、且标注过 程中存在大量重复文本,标注人员无法记忆每种重复文本的准确标注方法,导致前后标注不 统一;4)大批量多人协同标注过程中由于不同标注人员对相同的句子理解不同会导致大量标 注偏差,无法保证标注的一致性、会严重影响后续模型算法的训练效果。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于标注文本的训练数据集 生成方法、系统、设备和介质,以解决现有技术中存在的至少一个问题。
为实现上述目的及其他相关目的,本申请提供一种基于标注文本的训练数据集生成方法, 所述方法包括:获取多个待标注文本,将所述待标注文本中各原始长文本拆解为多个拆句短 文本并进行去重与清洗处理;将处理后的所述原始长文本和所述拆句短文本存入数据库以分 别分配到唯一的数据库id;采用正向最大匹配分句算法在所述数据库中获取所述原始长文本 与所述拆句短文本对应的匹配信息;对所述拆句短文本进行实体/关联标注以分别生成唯一的 标注id,并依据各所述拆句短文本获取其对应的数据库id与标注id的映射关系;根据匹配信 息、及数据库id与标注id的映射信息,将所述拆句短文本拼接为包含实体/关联标注的标注 长文本,以供作为训练集数据。
于本申请的一实施例中,所述将所述待标注文本中各原始长文本拆解为多个拆句短文本 并进行去重与清洗处理,包括:对各所述拆句短文本进行去重处理;对所有所述原始长文本 与去重后的所述拆句短文本进行文本清洗;所述本文清洗包括:全角半角转换、符号中英文 转换、罗马字符转换、剔除错误编码字符、删除文本前后的空格、删除文本前后的\n中任意 一种或多种组合。
于本申请的一实施例中,所述采用正向最大匹配分句算法包括:确定一所述原始长文本 所对应的全部所述拆句短文本中的最长字符数;按照所述最长字符数在所述原始长文本中从 头至尾正向进行试配;判断在所述最长字符数范围内对应的文本是否能够在数据库中匹配到 相同的所述拆句短文本;若不能,则将所述最长字符数减1,并重新在所述原始长文本或去 除了已匹配的拆句短文本的原始长文本中从头至尾正向进行试配,直至递减的字符数范围内 对应的文本能够在数据库中匹配到相同的所述拆句短文本;若能,则将该拆句短文本与该原 始长文本建立匹配关系以得到匹配信息,并重新按所述最长字符数在去除了已匹配的拆句短 文本的原始长文本中从头至尾正向进行试配;当所述原始长文本所对应的全部所述拆句短文 本均建立匹配关系并得到匹配信息后结束。
于本申请的一实施例中,所述匹配信息包括:文本匹配信息与位置匹配信息;所述文本 匹配信息包含每个所述原始长文本的数据库id所对应的全部所述拆句短文本的数据库id;所 述位置匹配信息包含每各所述拆句短文本位于所对应的所述原始长文本中的位置信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海森亿医疗科技有限公司,未经上海森亿医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010622293.2/2.html,转载请声明来源钻瓜专利网。





