[发明专利]一种提取限定词的方法、系统及电子设备在审

专利信息
申请号: 202211505584.9 申请日: 2022-11-28
公开(公告)号: CN115859966A 公开(公告)日: 2023-03-28
发明(设计)人: 陈银;吕晓;陈立力;周明伟 申请(专利权)人: 浙江大华技术股份有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F40/289;G06F18/214;G06N20/00
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 潘平
地址: 310053 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 提取 限定词 方法 系统 电子设备
【说明书】:

本申请公开了一种提取限定词的方法、系统及电子设备,该方法包括:获取当前业务信息表中的N个数据项;按照数据项处理操作对N个数据项进行属性转化,得到N个输入文本;将N个输入文本输入目标模型,得到N个数据项各自对应的第一限定词;通过过滤N个数据项各自对应的第一限定词中的预设内容,确定N个数据项各自对应的目标限定词,提取N个数据项各自对应的目标限定词。通过本申请实施例提供的技术方案,避免了基于人工经验来匹配限定词与数据信息,进而提高了限定词的提取效率与提取准确率。

技术领域

本申请涉及数据分析和数据治理技术领域,尤其涉及一种提取限定词的方法、系统及电子设备。

背景技术

随着互联网技术的普及和发展,数据种类逐渐多样化。由于数据形式以及数据内容均具有多样性,使得原始数据在接入大数据系统后,增加了数据的整合难度,从而无法真正的实现数据的快捷使用,因此,迫切需要一套完整的数据管理系统来对数据进行管理。

在数据管理系统包含的各个子系统中,各个子系统相对独立且数据录入时针对数据项名称的录入标准不统一,使得各个子系统的数据杂乱,进而导致用户难以根据数据项名称快速、准确的获取自己需要的数据。因此,在数据管理系统中,针对各种各样的数据采用标准化的数据项命名极具重要性。

目前,传统的标准化数据项命名是通过人工提取数据项中的数据信息的限定词的方式来对数据项进行标准化命名。在人工提取限定词来标准化命名数据项的过程中,操作人员基于自身经验来确定数据项中的数据信息对应的限定词以及数据元,进而实现对数据项的标准化命名。

例如,在图1所示的待处理的原业务信息表中,首先操作人员根据数据元的数据库确定四个数据项中对应的数据元均为姓名;然后操作人员根据数据项的具体数据信息,并依据自身经验提取四个数据项中的限定词为父亲、母亲、配偶以及子女,进而将四个数据项名称分别设置为父亲_姓名、母亲_姓名、配偶_姓名以及子女_姓名。

然而,在提取限定词时,通过人工的方式提取描述数据项的限定词时,若数据项的数量较多,则需要耗费大量时间来匹配限定词与数据信息,导致限定词的提取效率较低;并且,基于人工经验来提取限定词不具客观性,比如操作人员A依据自身经验将图1中第三列的限定词设置为配偶,而操作人员B依据自身经验将第三列的限定词设置为兄弟,使得限定词的提取极具主观性,进而导致限定词的提取准确率较低。

发明内容

本申请提供了一种,用以解决提取限定词时效率低以及准确率低的问题。具体实现方案如下:

第一方面,本申请提供了一种提取限定词的方法,所述方法包括:

获取当前业务信息表中的N个数据项,其中,N是大于零的整数;

按照数据项处理操作对所述N个数据项进行属性转化,得到N个输入文本;

将所述N个输入文本输入目标模型,得到所述N个数据项各自对应的第一限定词;

通过过滤所述N个数据项各自对应的第一限定词中的预设内容,确定所述N个数据项各自对应的目标限定词,提取所述N个数据项各自对应的目标限定词。

通过数据项处理操作对业务信息表中的数据项进行属性转化,将转化后得到的中文字段和数据元作为输入文本,并输入符合预设条件的目标模型,针对输出的第一限定词过滤其中的预设内容,得到了目标限定词,避免了基于人工经验来匹配限定词与数据信息,从而降低了人力成本,并减少了由于人为经验导致的错误,进而提高了限定词的提取效率与提取准确率。

在一种可能的实施方式中,在所述获取当前业务信息表中的N个数据项前,还包括:

获取历史业务信息表中的M个数据项,其中,M是大于零的整数;

按照数据项处理操作对所述M个数据项进行属性转化,得到M个训练文本;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211505584.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top