[发明专利]基于VBA和四面体数据模型的文本信息获取与描述方法有效

申请号：	201210214210.1	申请日：	2012-06-25
公开（公告）号：	CN102799632A	公开（公告）日：	2012-11-28
发明（设计）人：	李未;郎波;刘洋	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/24
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	杨学明;顾炜
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 vba 四面体数据模型文本信息获取描述方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据处理的技术领域，具体涉及一种基于VBA和四面体数据模型的文本信息获取与描述方法，其通过VBA宏配合伺服程序的形式对文本信息的获取、描述和整合。

背景技术

随着信息时代的到来，信息每天都在以惊人的速度增长，Web网页、文本、图形图像、音频视频和空间数据等非结构化数据越来越多。据Gartner Group统计，当今80％的数据是非结构化数据，这些数据来源丰富、内容复杂、结构迥异，传统的关系型数据库对这些复杂类型的非结构化数据已力不从心。因此建立非结构化数据管理系统，实现非结构化数据的有效管理将具有重大意义。

由于非结构化数据本身差异巨大、底层特征完全不同，如何抽象、表示数据对象是非结构化数据管理首要解决的问题。四面体（Tetrahedron）数据模型，或称为三棱锥（Pyramid）模型，认为对于非结构化数据可以由四面体的4个刻面：基本属性（所有数据都具有的一般属性，包括名称、类型、创建者等），语义特征（以文字表达的非结构化数据特有的语义属性，包括作者创作意图、数据主题说明、底层特征含义等语义要素），底层特征（通过各种专用处理技术（如文本、图像、语音、视频等）获得的非结构化数据特性,如颜色、纹理、形状、关键字等），原始数据（非结构化数据的原生态文件），以及刻面间语义关联进行描述。因此，四面体数据模型能够统一描述多种非结构化数据类型，合理表达了非结构化数据的组成部分以及各组成部分之间的内在联系。同时四面体数据模型能够集成处理各种数据类型的成熟技术，有效支持非结构化数据间的特征关联，具有可扩展性。

文本作为一类重要的非结构化数据，可以由四面体进行完全描述。如果能够在文本获取、创建和编辑的同时即可提取文本的四面体信息，将极大得方便这些数据的管理。因此本发明采用Windows应用程序（例如Microsoft Office系列软件、WPS Office系列软件等）中广泛使用的VBA宏技术，对文本进行统一、一致地数据处理，实现文本的编辑和排版过程中，文本四面体数据的获取以及文本四面体的形成，以便于后期文本数据的管理。

发明内容

本发明的技术解决问题：采用Windows应用程序（例如Microsoft Office系列软件、WPS Office系列软件等）中广泛使用的VBA宏技术，对文本进行统一、一致地数据处理，实现文本的编辑和排版过程中，文本四面体数据的获取以及文本四面体的形成，以便于后期文本数据的管理。

本发明采用的技术方案为：一种基于VBA（Visual Basic for Applications）和四面体数据模型的文本信息获取与描述方法，步骤如下：

步骤（1）、基于四面体数据模型（Tetrahedral Data Model），或称为三棱锥模型(Pyramid Data Model)，形成文本数据进行存储和表达形式；

步骤（2）、自动采集数据文件的文件名、类型、创建者、创建时间、修改时间等基本属性；

步骤（3）、文本编辑软件完成文本的编辑和排版等工作，生成原始数据；

步骤（4）、使用伺服程序对文本数据进行特征提取，提取关键字和倒排索引等底层信息；

步骤（5）、处理文本并自动提取标题、作者等信息，对科技文献类数据提取关键字（中英文）、摘要（中英文）、分类号等信息；

步骤（6）、语义标注模块提供用户输入其他语义信息、对自动提取的语义信息进行修正以及添加删除语义项的功能；

步骤（7）、存储管理模块综合原始数据、基本属性、底层特征以及语义特征信息最终形成文本的四面体表达；

步骤（8）、在文本编辑软件界面中添加按钮，通过与非结构化数据库相连的伺服程序，实现文档的一键入库。

根据本发明的又一个方面，其中步骤（1）又进一步包括：