[发明专利]基于标注文本的训练数据集生成方法、系统、设备和介质有效

申请号：	202010622293.2	申请日：	2020-06-30
公开（公告）号：	CN111859857B	公开（公告）日：	2021-08-27
发明（设计）人：	张少典;顾根;刘霄晨	申请（专利权）人：	上海森亿医疗科技有限公司
主分类号：	G06F40/117	分类号：	G06F40/117;G06F40/232;G06F40/279;G06F40/295
代理公司：	上海光华专利事务所(普通合伙) 31219	代理人：	李治东
地址：	201213 上海市浦***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于标注文本训练数据生成方法系统设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种基于标注文本的训练数据集生成方法、系统、设备和介质，通过获取多个待标注文本，将各原始长文本拆解为多个拆句短文本并进行去重与清洗处理；处理后存入数据库以分别分配到唯一的数据库id；采用正向最大匹配分句算法在数据库中获取对应的匹配信息；对拆句短文本进行实体/关联标注以分别生成唯一的标注id，并依据各拆句短文本获取其对应的数据库id与标注id的映射关系；根据匹配信息、及映射信息，将拆句短文本拼接为包含实体/关联标注的标注长文本，以供作为训练集数据。本申请能大幅降低企业人工标注的成本，确保重复文本标注一致性，同时能够降低模型算法训练时语料不一致造成的干扰，提升了模型学习的准确率。

技术领域

本申请涉及训练集数据生成技术领域，特别是涉及一种基于标注文本的训练数据集生成方法、系统、设备和介质。

背景技术

训练数据的匮乏是自然语言处理NLP领域里一个永恒的问题，缺乏标注数据、样本存在大量噪声、数据存在偏差都是很普遍的现象，在自然语言处理领域，特别是垂直领域(比如医学)，这种现象更明显，当前业界标注主要存在如下问题：

1)对于企业来说大规模的人工数据标注成本极高；2)对于标注人员来说医学数据要求标注人员具有专业的医学知识和基本的语言学常识；3)人工标注工作量大、枯燥、且标注过程中存在大量重复文本，标注人员无法记忆每种重复文本的准确标注方法，导致前后标注不统一；4)大批量多人协同标注过程中由于不同标注人员对相同的句子理解不同会导致大量标注偏差，无法保证标注的一致性、会严重影响后续模型算法的训练效果。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种基于标注文本的训练数据集生成方法、系统、设备和介质，以解决现有技术中存在的至少一个问题。

为实现上述目的及其他相关目的，本申请提供一种基于标注文本的训练数据集生成方法，所述方法包括：获取多个待标注文本，将所述待标注文本中各原始长文本拆解为多个拆句短文本并进行去重与清洗处理；将处理后的所述原始长文本和所述拆句短文本存入数据库以分别分配到唯一的数据库id；采用正向最大匹配分句算法在所述数据库中获取所述原始长文本与所述拆句短文本对应的匹配信息；对所述拆句短文本进行实体/关联标注以分别生成唯一的标注id，并依据各所述拆句短文本获取其对应的数据库id与标注id的映射关系；根据匹配信息、及数据库id与标注id的映射信息，将所述拆句短文本拼接为包含实体/关联标注的标注长文本，以供作为训练集数据。

于本申请的一实施例中，所述将所述待标注文本中各原始长文本拆解为多个拆句短文本并进行去重与清洗处理，包括：对各所述拆句短文本进行去重处理；对所有所述原始长文本与去重后的所述拆句短文本进行文本清洗；所述本文清洗包括：全角半角转换、符号中英文转换、罗马字符转换、剔除错误编码字符、删除文本前后的空格、删除文本前后的\n中任意一种或多种组合。

于本申请的一实施例中，所述采用正向最大匹配分句算法包括：确定一所述原始长文本所对应的全部所述拆句短文本中的最长字符数；按照所述最长字符数在所述原始长文本中从头至尾正向进行试配；判断在所述最长字符数范围内对应的文本是否能够在数据库中匹配到相同的所述拆句短文本；若不能，则将所述最长字符数减1，并重新在所述原始长文本或去除了已匹配的拆句短文本的原始长文本中从头至尾正向进行试配，直至递减的字符数范围内对应的文本能够在数据库中匹配到相同的所述拆句短文本；若能，则将该拆句短文本与该原始长文本建立匹配关系以得到匹配信息，并重新按所述最长字符数在去除了已匹配的拆句短文本的原始长文本中从头至尾正向进行试配；当所述原始长文本所对应的全部所述拆句短文本均建立匹配关系并得到匹配信息后结束。

于本申请的一实施例中，所述匹配信息包括：文本匹配信息与位置匹配信息；所述文本匹配信息包含每个所述原始长文本的数据库id所对应的全部所述拆句短文本的数据库id；所述位置匹配信息包含每各所述拆句短文本位于所对应的所述原始长文本中的位置信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海森亿医疗科技有限公司，未经上海森亿医疗科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010622293.2/2.html，转载请声明来源钻瓜专利网。

上一篇：属性识别系统、学习服务器以及计算机可读记录介质
下一篇：一种基于主动防御的列控车载系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于标注文本的训练数据集生成方法、系统、设备和介质有效

专利文献下载