[发明专利]一种数据资源的信息目录主题库分类方法在审
申请号: | 202110659501.0 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113342975A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 陈白雪;张律;杨洋;吴胤杰;周国栋;汪涛 | 申请(专利权)人: | 江苏卓易信息科技股份有限公司;南京百敖软件有限公司;上海百之敖信息科技有限公司;昆山百敖电子科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06K9/62 |
代理公司: | 无锡知初知识产权代理事务所(普通合伙) 32418 | 代理人: | 高春涛 |
地址: | 214205 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 资源 信息 目录 主题 分类 方法 | ||
本发明公开了一种数据资源的信息目录主题库分类方法,涉及大数据管理技术领域。包括以下步骤:1)采集数据资源的信息目录样本作为样本数据;2)对样本数据进行标记,标记所用标签为拟定的主题库名称;3)基于自然语言处理方法将标签进行向量化处理,基于机器学习方法训练分类模型,使用分类模型进行数据资源的信息目录主题库分类,划分主题库;4)调整样本数据内容和标签类别,优化分类模型。本申请结合自然语言处理的方法,将划分主题库转化为文本分类问题,不需要人工去总结标签体系规则,能够批量对主题库进行分类,提高了资源的有效利用率。同时结合本问题的特点对文本特征做了改造,相比改造之前分类的准确性得到显著提升。
技术领域
本发明涉及大数据管理技术领域,具体涉及一种数据资源的信息目录主题库分类方法。
背景技术
数据资源的信息目录是信息组织的一种方式,可以展示所有的数据资源但又可以不对外暴露数据。政府和企业的数据资源的信息目录也是如此。对于政府数据资源的信息目录来说,根据目录、信息组织、信息资源、元数据等相关概念,可以从技术角度定义政府数据资源的信息目录体系为:以元数据为核心,以政务分类表和主题词表为控制词表,对政府数据资源的信息目录进行网状组织,满足从分类、主题、应用等多个角度对政府数据资源进行管理、识别、定位、发现、评估与选择。
传统上划分主题库方法一种是通过业务人员创建资源时根据自身的理解划分主题,人工判定耗时耗力,且不能批量,另一种是创建规则,但对于拥有庞大数据量的机构或企业规则会覆盖不全面。
发明内容
针对现有技术存在的上述问题,本发明所要解决的技术问题在于提供一种数据资源的信息目录主题库分类方法。
为了解决上述技术问题,本发明所采用的技术方案如下:
一种数据资源的信息目录主题库分类方法,包括以下步骤:
1)采集数据资源的信息目录样本作为样本数据;
2)对样本数据进行标记,标记所用标签为拟定的主题库名称;
3)基于自然语言处理方法将标签进行向量化处理,基于机器学习方法训练分类模型,使用分类模型进行数据资源的信息目录主题库分类,划分主题库;
4)调整样本数据内容和标签类别,优化分类模型。
进一步的,步骤1)中,数据资源的信息目录的基本结构包括接入表的表名、数据项字段名称、字段含义、说明描述。
进一步的,步骤2)中,使用one-hot方法标签向量化,使用smote算法对训练样本数据做合成样本处理,使得每个标签标记的样本数据量一致,使用TFIDF方法进行特征抽取并舍弃噪音数据,然后结合本问题变型划分不同的特征矩阵,进行特征计算,再使用lightGBM算法训练分类模型。
进一步的,步骤3)中,使用分类模型的predict_proba函数得到数据资源的信息目录划分到每个标签的概率,设定概率阈值,如果大于阈值就将数据资源的信息划分到该标签所拟定的主题库。
进一步的,步骤4)中,当接入新的数据资源时,可直接依据当前分类模型进行数据资源的信息主题库分类,划分主题库。
进一步的,骤4)中,当接入新的数据资源时,可直接依据当前分类模型的每个标签划分的概率即当前每个主题库划分的概率,划分主题库。
进一步的,步骤4)中,当接入新的数据资源时,划分主题库与期望不符时,通过人工介入,纠错划分的结果;纠错之后返回步骤2),重新训练分类模型。
进一步的,步骤4)中,随着样本数据内容的调整,主题库有新增或删减时,需对标记所用标签进行相应的新增或删减,然后返回步骤2),重新训练分类模型。
进一步的,同一数据资源可属于多个主题库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏卓易信息科技股份有限公司;南京百敖软件有限公司;上海百之敖信息科技有限公司;昆山百敖电子科技有限公司,未经江苏卓易信息科技股份有限公司;南京百敖软件有限公司;上海百之敖信息科技有限公司;昆山百敖电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110659501.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一件能够对电梯井的清洁和检测功能的机器人
- 下一篇:一种水果软糖及其加工工艺
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置