[发明专利]一种基于ElasticSearch的文化资源级联查询接口的实现方法有效

专利信息
申请号: 202010992524.9 申请日: 2020-09-21
公开(公告)号: CN112131449B 公开(公告)日: 2022-07-22
发明(设计)人: 高岭;祁耀祖;刘峰;王妍;曹瑞;郑杰 申请(专利权)人: 西北大学
主分类号: G06F16/951 分类号: G06F16/951;G06F16/9538;G06F16/957;G06F9/54;G06N20/00
代理公司: 西安西达专利代理有限责任公司 61202 代理人: 刘华
地址: 710069 陕西*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 elasticsearch 文化 资源 级联 查询 接口 实现 方法
【权利要求书】:

1.一种基于ElasticSearch的文化资源级联查询接口的实现方法,包括文化资源爬取、消息缓存、资源分类、视频描述、语音识别、查询接口,其特征在于,包括以下步骤:

1)系统构建:

资源爬取系统:对各种来源的非结构化数据进行全自动化采集,借助网络爬虫或网站API,从网页获取非结构化数据,将其统一结构化为本地数据;

配置缓存服务器:配置Redis服务的ip地址、端口、服务密码;

配置Elasticsearch分布式集群:在每台服务器上边配置相同的cluster.name,不同的node.name,各自的ip地址以及服务端口号,最后设置集群自动发现机器ip集合,确保能够找到其他机器,保证其高可用性;

训练模型:利用部分数据训练模型,包括针对文字、语音、图片的模型,进行多模态特征融合,获得融合特征;

模型接口:将视频描述模块和语音生成文字模块以及多模态机器学习模块编写为接口,方便调用;

系统开发:使用vue+springboot,编写包含文化资源级联查询接口的系统,用户测试;

2)在服务器开启ElasticSearch服务,使用restClient.builder对restClient进行初始化,配置ip地址、端口号、以及传输协议,传输协议即http协议,RestClient类是线程安全的,以便它所使用的所有资源得到正确释放;

3)restClient是通过使用带有JSON请求和响应体的方法进行检索,作为查漏补缺,针对高级别的api中缺失的部分,对restHighLeverClient进行初始化;

4)当restClient和restHighLeverClient都初始化结束之后,Elasticsearch检查是否存在指定名称的索引,若是不存在,则创建索引;

5)文化资源采集系统开始采集数据资源,并且存放到基础数据库中,基础数据库用于存放原始数据,同时将发生改变的文化资源唯一表示id存放到Redis消息缓存中,用于进一步处理;

6)当消息缓存的数量达到设定的阈值,将缓存队列中存储的资源ID传递给多模态机器学习模块,利用模型vgg-19、VGGish、以及Bert进行分类,生成新的特征信息;

7)对于简单的文档资源,使用ElasticSearch自带的分词器进行分词,建立倒排索引,便能实现全文检索;

8)对于相对复杂的视频资源,则需要用到多模态机器学习对其进行分类,分别训练针对图像、语音、文字的学习模块,根据预先建立的分类标准两层规范,对视频资源进行分类,利用视频描述模块生成对视频的描述,方便检索,利用语音识别模块,将视频中的语音信息转换为文字信息,利用ElasticSearch对这些文本信息进行多条件查询;

9)通过深度学习模块之后,除了对视频资源分类,还会产生一些新的描述与特征,将这些新的信息存储到进阶数据库中,唯一标识ID与原本资源的ID相同;

10)使用restHighLeverClient判断是进行更新操作还是添加操作,如果是更新操作,则需要先准备好要替换的内容,然后删除索引中的文档,最后再插入数据,如果是添加操作,则不需要特殊处理, 更新索引信息,提供更加优质的文化资源全文检索功能。

2.根据权利要求1所述的一种基于ElasticSearch的文化资源级联查询接口的实现方法,其特征在于,所述的数据资源为从国家公共文化云网站或者其他的渠道,针对缺少文字信息的不能用传统关键词匹配方式检索到的视频资源,通过爬虫的方式进行爬取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010992524.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top