[发明专利]一种基于个性化标签体系的主题库生成方法有效
申请号: | 201910552537.1 | 申请日: | 2019-06-25 |
公开(公告)号: | CN110263021B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 崔天雨;宋设;单震 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/22;G06F16/245;G06F16/28 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 214029 江苏省无锡市滨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 个性化 标签 体系 主题 生成 方法 | ||
1.一种基于个性化标签体系的主题库生成方法,其特征在于:包括以下步骤:
S1、生成标签池
包括创建实体,创建标签项,创建个性化规则和生成标签池四个部分;
具体步骤如下:
S11、根据数据库中数据之间的逻辑关系创建实体,并以数据库相关表中一个或多个字段作为数据的唯一标识将数据划分为多个个体;
S12、在创建个性化规则前维护标签库,根据标签项父子级关系和标签项的不同维度在关系型数据库中维护一棵标签树,每次创建个性化规则前要对即将生成的主题创建相对应的一组标签项;
S13、创建个性化规则,通过个性化规则将实体中的个体数据通标签项联系起来,一个个性化规则应用于一个实体,个性化规则的类型依据需求开发并不断扩充,个性化规则在计算引擎中实现;
S14、执行个性化规则的引擎选用大数据计算引擎,将各个实体下的所有数据根据个性化规则进行一一匹配,生成个体和标签项的对应关系存在标签池中,标签池采用Elasticsearch或hbase;
S2、生成主题库
包括实现标签池搜索功能,查找主题相关标签项,对各标签项进行数据查询和导出数据生成主题库四个部分;
具体步骤如下:
S21、利用Elasticsearch建立索引用能够快速查询数据,输入标签名即可查询到与该标签项相关联的个体数据标识,根据查询到的标识即可得到原始库中相应个体的具体数据;同时将实体需要索引的个体数据表或列一并存入Elasticsearch中,实现对实体中的个体数据内容进行索引查询,进而实现Elasticsearch依据标签项查数据的功能;
S22、查找主题相关标签项,将主题下所有相关标签项选取出来得到标签项列表,并认为将具有相关标签的个体数据具有收录到该主题的资格;
S23、对得到的标签项列表中的标签项依次查询或联合查询,通过标签项查找到与之相关的数据;
S24、将查询到的个体数据内容导出到一个统一的数据库中,生成主题库。
2.根据权利要求1所述的基于个性化标签体系的主题库生成方法,其特征在于:所述步骤S11中,实体信息创建后需要在数据库中维护起来,所述实体信息包括实体名称,描述和存在标识字段的相关表信息。
3.根据权利要求1所述的基于个性化标签体系的主题库生成方法,其特征在于:所述步骤S13中,个性化规则包括枚举类规则,计算类规则,正则类规则和文本分析类规则,并且新标签使用原有标签作为数据来创建规则。
4.根据权利要求1所述的基于个性化标签体系的主题库生成方法,其特征在于:所述步骤S13中,如果与个性化规则有关联的数据在相同的关系型数据库,则直接执行关系型数据库中的左连接操作;如果与个性化规则有关联的数据不在相同的关系型数据库,则通过Datax将个性化规则和有关联的数据导入到同一个数据库中进行左连接,或者通过SparkSQL加载在内存中运算。
5.根据权利要求4所述的基于个性化标签体系的主题库生成方法,其特征在于:当与个性化规则有关联的数据数据量过大时,将数据分批进行操作。
6.根据权利要求1所述的基于个性化标签体系的主题库生成方法,其特征在于:所述步骤S22中,一个标签项用于一个或多个主题,个体数据打上标签后多次复用;并且在主题库中,不同实体数据的标签项存储在不同标签项列中,不同查询标识存储在不同数据标识表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910552537.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:在线学习测验题库管理系统及管理方法
- 下一篇:酒店数据匹配方法及装置