[发明专利]基于PostgreSQL的流式文档处理方法、装置以及装置的应用方法有效
| 申请号: | 202110324438.5 | 申请日: | 2021-03-26 |
| 公开(公告)号: | CN112988668B | 公开(公告)日: | 2022-10-14 |
| 发明(设计)人: | 李鹏;苗健;卢健;张鲁敏;陈泽 | 申请(专利权)人: | 瀚高基础软件股份有限公司 |
| 主分类号: | G06F16/14 | 分类号: | G06F16/14;G06F16/13 |
| 代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 罗丹 |
| 地址: | 250101 山东省济南市高新*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 postgresql 文档 处理 方法 装置 以及 应用 | ||
本发明公开了一种基于PostgreSQL的流式文档处理方法、装置以及装置的应用方法。基于PostgreSQL的流式文档处理方法,包括:在PostgreSQL中构建复合数据,复合数据包括第一属性和第二属性;获取流式文档的文档内容并存入第一属性;获取流式文档的物理存储地址并存入第二属性;在PostgreSQL中对第一属性进行索引。采用本发明,可以扩展关系型数据库的文档数据处理能力,使得用户的流式文档数据可以方便地保存于关系型数据库并能高效检索,从而可以减少用户信息管理系统的复杂度,减少开发工作量。
技术领域
本发明涉及文档存储、检索技术领域,尤其涉及一种基于PostgreSQL的流式文档处理方法、装置以及装置的应用方法。
背景技术
流式文件,能够支持编辑,其内容是流动的,中间键入新内容将导致后面的内容“流”到下一行或下一页去。流式文件在不同的软硬件环境中,显示效果会发生变化。微软的Word文档是典型的流式文件。比如同一个Word文档,在不同版本的Office软件中或者不同分辨率的电脑上,显示效果都是有所不同的。流式文档是一种非结构化的数据,因为其格式不固定。
PostgreSQL是一种功能强大的关系型数据库,支持多种数据类型。但是对于流式文档,PostgreSQL只能将其作为一个二进制文件类型进行存储和管理,无法对数据进行高效检索和管理。关系型数据库是一种结构化的存储装置,它只适合处理格式固定的结构化数据。
发明内容
本发明实施例提供一种基于PostgreSQL的流式文档处理方法、装置以及装置的应用方法,用以解决现有技术中数据库无法对流式文档数据进行高效检索和管理的问题。
根据本发明实施例的基于PostgreSQL的流式文档处理方法,包括:
在PostgreSQL中构建复合数据,所述复合数据包括第一属性和第二属性;
获取流式文档的文档内容并存入所述第一属性;
获取所述流式文档的物理存储地址并存入所述第二属性;
在PostgreSQL中对所述第一属性进行索引。
根据本发明的一些实施例,所述获取流式文档的文档内容并存入所述第一属性,包括:
识别流式文档,并对所述流式文档进行解析,以提取所述流式文档的文档内容;
将所述文档内容以文本类型存入所述第一属性;
所述获取所述流式文档的物理存储地址并存入所述第二属性,包括:
将所述流式文档以二进制的形式存入一个内部表;
将所述流式文档在所述内部表的位置以OID类型存入所述第二属性。
根据本发明的一些实施例,所述在PostgreSQL中对所述第一属性进行索引,包括:
在PostgreSQL中,采用n-gram算法,对所述第一属性进行索引。
根据本发明的一些实施例,所述方法,还包括:
获取更改后的流式文档的文档内容,以更新所述第一属性;
利用put_document(OID,bytea)函数,更改所述流式文档的第二属性;
所述put_document(OID,bytea)函数的参数包括:所述流式文档的物理存储地址和更改后的流式文档的二进制形式内容。
根据本发明实施例的基于PostgreSQL的流式文档处理装置,包括:
定义模块,用于构建复合数据,所述复合数据包括第一属性和第二属性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于瀚高基础软件股份有限公司,未经瀚高基础软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110324438.5/2.html,转载请声明来源钻瓜专利网。





