[发明专利]一种用于文本标记的快速映射方法在审

专利信息
申请号: 201810141846.5 申请日: 2018-02-11
公开(公告)号: CN110209882A 公开(公告)日: 2019-09-06
发明(设计)人: 淡强强;刘炬光;吴雪军 申请(专利权)人: 鼎复数据科技(北京)有限公司
主分类号: G06F16/84 分类号: G06F16/84
代理公司: 北京康思博达知识产权代理事务所(普通合伙) 11426 代理人: 范国锋;刘冬梅
地址: 100020 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 映射 文本标记 抽提 文档 格式化 标记样本 工作效率 数据标记 信息标记 样本信息 结构化 原有的 准确率 抽取
【说明书】:

发明公开了用于文本标记的快速映射方法,所述方法包括:待抽提信息的文档与结构化表格建立对应关系;将文档中待抽提的信息标记提取至格式化表格中,建立映射。本发明提供的用于文本标记的快速映射方法,改变了原有的样本信息人工抽取方式,让操作者尤其是数据标记员的工作效率大大提升;并且标记样本的准确率无限趋近100%。

技术领域

本发明涉及机器学习的样本的生产方法,具体涉及一种利用文本映射标记来进行人工生产样本的方法。

背景技术

现行的机器学习方案均需要样本和数据进行训练,所以前期的样本获取对于机器学习模型的训练与优化就显得至关重要。

一般而言,机器学习的样本往往是没有现成数据的,需要人工去标记生产。在人工标记生产样本的过程中,工具平台必不可少。利用工具平台的技术方法,可以让数据标记员的工作效率大幅提升。

然而,现有技术中IT化工具平台的效率并不高,其存在以下两个巨大的问题:

1)原始非结构化文本跟结构化文本的信息之间没有位置对应关系,信息回溯进行二次验证的过程很困难,无法知道结构化文本中的信息是从原文哪里提取出来的;

2)数据标记员在进行前期样本标记的过程中,采用的方法是读原文,找到原文中需要的信息,然后将需要的信息一项项填入到对应的结构化表格中;在输入的过程很容易打错字,并且输入效率低下,准确性跟时效性都没办法保证。

由于上述原因,本发明人对现有的技术进行改进,研究出一种用于文本标记的快速映射方法。

发明内容

为了克服上述问题,本发明人进行了锐意研究,设计出一种用于文本标记的快速映射方法,所述方法中将非结构文本中的目标内容映射到结构化文本中,从而将原文中的目标内容与结构化文本中标记的内容建立映射关系,很容易实现内容的回溯,以便数据标记员进行二次验证。所述方法可以快速标记原文内容,让数据标记员的工作效率大幅提升。

具体来说,本发明的目的在于提供一种用于文本标记的快速映射方法,所述方法包括以下步骤:

待抽提信息的文档与结构化表格建立对应关系;

将文档中待抽提的信息标记提取至格式化表格中,建立映射。

其中,所述待抽提信息的文档为纯文本格式,并设置有行号;所述结构化表格的表头中设置有设定的项目;所述结构化表格与待抽提信息的文档具有相同的属性值。

所述浏览器通过CSS技术将信息抽提时的工作网页分为左侧视窗和右侧视窗;优选左侧视窗内显示待抽提信息的文档内容,在右侧视窗内显示的是设定结构的表格。

鼠标在左侧视窗内划选目标内容后,通过JS(JavaScript)程序控制浏览器的CSS样式信息,改变右侧视窗内结构化表格表头下单元格的背景颜色;鼠标移动至结构化表格表头的任一单元格后,JS程序控制该单元格的CSS样式信息,使该单元格的背景颜色再次改变。

JS程序获取鼠标在工作网页左侧视窗内划选的目标内容和该内容所对应的位置信息;鼠标移动至结构化表格表头下的任一单元格后并点击,JS程序根据浏览器获取到鼠标的点击事件,JS程序将鼠标划选的目标内容填充在鼠标点击的单元格内。浏览器将填充的目标内容信息和该内容对应的位置信息存储于浏览器虚拟内存中。

所述位置信息优选为位置索引信息,包括目标内容在文档内容中的行号和在该行中的第N至M个字;

当目标内容在表格中时,所述位置索引信息包括目标内容在表格中的列数和行数。

目标内容填充于结构化表格单元格的同时,通过JS程序控制浏览器的CSS样式信息,改变鼠标在左侧视窗内划选的目标内容的背景颜色,并持久显示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎复数据科技(北京)有限公司,未经鼎复数据科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810141846.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top