[发明专利]一种基于ElasticSearch的文化资源级联查询接口的实现方法有效
| 申请号: | 202010992524.9 | 申请日: | 2020-09-21 |
| 公开(公告)号: | CN112131449B | 公开(公告)日: | 2022-07-22 |
| 发明(设计)人: | 高岭;祁耀祖;刘峰;王妍;曹瑞;郑杰 | 申请(专利权)人: | 西北大学 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9538;G06F16/957;G06F9/54;G06N20/00 |
| 代理公司: | 西安西达专利代理有限责任公司 61202 | 代理人: | 刘华 |
| 地址: | 710069 陕西*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 elasticsearch 文化 资源 级联 查询 接口 实现 方法 | ||
一种基于ElasticSearch的文化资源级联查询接口的实现方法,首先利用公共文化云建立的分类标准规范,将文化资源分为主体类目和复分类目两层结构,以方便进行分类与检索。文化资源信息包括视频、音频、封面、标题、简介,首先将这些信息按照处理方法分为三类,即是图像处理、文本处理和音频/语音处理,分别为这三类信息选择对应的vgg‑19、Bert、VGGish特征提取模型提取出对应的特征信息,利用Transformer对各特征进行融合,其次利用基于GAN的描述生成技术对图片资源和视频资源生成描述文本,然后将特征和描述文本按照分类标准规范进行分类存储。最后使用弹性搜索,利用这些生成的分类信息和描述信息实现文化资源检索接口。
技术领域
本发明属于信息检索技术领域,具体涉及一种基于ElasticSearch的文化资源级联查询接口的实现方法。
背景技术
文化是一个国家和民族的灵魂,随着社会的发展,公众对于文化资源、文化服务的需求愈加迫切,宏观,目前我国的公共文化服务仍不尽如人意,与人民群众的文化需求之间仍存在较大差距。主要表现在公共文化服务水平整体提升下的有效供给不足;公共文化资源空间配置的“结构性失衡”;公共文化供给模式单一,社会化主体参与缺位。具体到数字文化资源方面,大多数群艺馆(文化馆)已建有自己的门户网站、微信平台、数字文化资源、特色数字资源库等面向群众开展文化服务的数字化和信息化工作。但信息和资源更新及访问速度较慢、用户访问量较小,功能不齐全、不完备,不能有效实现资源和信息的一站式展示和管理。解决这些问题直接有效的方法之一是丰富文化资源的检索模型,建设文化资源的检索系统。
ElasticSearch是一个Apache组织管理的基于Lucene的搜索服务器,是一个分布式、高扩展、高实时的搜索与数据分析引擎。在传统的关系型数据库中,索引是检索数据最有效率的方式,但是对于搜索引擎来说,索引不能够满足搜索引擎的要求,面对海量的、多种格式的数据,数据库系统很难进行有效的管理,ElasticSearch的倒排索引(Invertedindex)很大程度上解决了这个问题。
倒排索引也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,它是文档检索系统中最常用的数据结构。通过倒排索引可以根据单词快速获取包含这个单词的文档列表。倒排索引是实现单词到文档映射关系的最佳实现方式和最有效的索引结构。使用ElasticSearch能够优化检索的效果,使用户检索到更加符合要求的资源。
一个索引中的数据保存在多个分片中,相当于水平分表。一个分片便是一个Lucene的实例,它本身就是一个完整的搜索引擎。我们的文档被存储和索引到分片内,但是应用程序是直接与索引而不是与分片进行交互。ElasticSearch实际上就是利用分片来实现分布式。分片是数据的容器,文档保存在分片内,分片又被分配到集群内的各个节点里。当集群规模扩大或者缩小时,ElasticSearch会自动地在各节点中迁移分片,使得数据仍然均匀分布在集群里。一个分片可以是主分片或者副本分片。索引内任意一个文档都归属于一个主分片,所以主分片的数目决定着索引能够保存的最大数据量。一个副本分片只是一个主分片的拷贝。副本分片作为硬件故障时保护数据不丢失的冗余备份,并为搜索和返回文档等读操作提供服务。保证了集群的可用性。
由于本专利涉及的国家公共文化云的原始数据保存在其结构化数据库中,为了使得资源能够被更轻易地检索、排序,就需要对每个公共文化资源的描述特征进行扩展。对于一些没有文字描述的文化视频资源,还需要对其生成描述。根据《文化馆数字资源元数据规范》、《文化馆数字资源分类规范》、《国家公共文化云平台标准规范4:数字资源元数据标准规范、交换标准规范及著录规则》等文件的描述,可以得到公共文化资源的粗略定义,方便资源对象的保存、迁移、交换和使用。这些规范能够轻松扩展未来收录的其他文化资源库机构已采用的标识符,从而统一纳入国家公共文化数字支撑平台体系中进行标识管理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010992524.9/2.html,转载请声明来源钻瓜专利网。





