数据管理

数据模型

层次模型

层次数据库模型是用树形结构来表示实体间联系的模型。它将数据组织成一对多或双亲与子女关系的结构，其特点为：

有且仅有一个结点无双亲，这个结点即树的根
其它结点有且仅有一个双亲
场景：适用于文献目录、土壤分类、部门机构等分级数据的组织

网状模型

在该模型中，各记录类型间可具有任意个连接关系。一个子结点可有多个父结点；可有一个以上的结点无父特点；父结点与某个子结点记录之间可以有多种联系一对多、多对一、多对多
特点：由于数据间联系要通过指针表示，指针数据项的存在使数据量大大增加，当数据间关系复杂时指针部分会占大量数据库存贮空间。另外，修改数据库中的数据，指针也必须随着变化
场景：适用于数据间相互关系非常复杂的情况

关系模型

基本思想是用二维表形式表示实体及其联系。二维表中的每一列对应实体的一个属性，其中给出相应的属性值，每一行形成一个由多种属性组成的多元组，或称元组tupple，与一特定实体相对应。实体间联系和各二维表间联系采用关系描述或通过关系直接运算建立。元组或记录是由一个或多个属性数据项来标识，这一个或一组属性称为关键字，一个关系表的关键字称为主关键字，各关键字中的属性称为元属性
特点：许多操作都要求在文件中顺序查找满足特定关系的数据

面向对象模型

无论怎样复杂的事例都可以准确地由一个对象表示。每个对象都是包含了数据集和操作集的实体，即是说，面向对象的模型具有封装性的特点

GIS中的面向对象模型

空间地物的几何数据模型
拓扑关系与面向对象模型
面向对象的属性数据模型

图形数据与属性数据组织

地图数据的基本组成

空间数据

地图数据可分为点数据、线数据、面数据和混合性数据四种类型。其中混合性数据由点状、线状与面状物体组成的更为复杂的地理实体或地理单元。空间数据的一个重要特点是它含有拓扑关系，即网结构元素中结点、弧段和面域之间的邻接，关联与包括等关系

非空间数据

主要包括专题属性数据和质量描述数据等，它表示地理实体的本质特性，是地理实体相互区别的质量准绳

时间因素

图形数据的构模

矢量数据模型

面条模型：仅仅把实体的空间信息定义成坐标串，不存贮任何空间关系
拓扑模型

面片模型

网格系统
多边形系统

专题属性数据构模

图形数据与专题属性数据分别管理
对通用DBMS扩展以增加空间数据的管理能力
属性数据和图形属性具有统一结构
图形数据和属性数据自成体系

空间索引

空间索引是指根据空间要素的地理位置、形状或空间对象之间的某种空间关系，按一定的顺序排列的一种数据结构，一般包括空间要素标识，外包络矩形以及指向空间要素的指针。这里，外包络矩形是指空间要素的封装边界，它是每一种空间索引必不可少的要素。

空间索引的目的是为了在GIS系统中快速定位到所选中的空间要素，从而提高空间操作的速度和效率。空间索引的技术和方法是GIS关键技术之一，是快速、高效的查询、检索和显示地理空间数据的重要指标，它的优劣直接影响空间数据库和GIS系统的整体性能

矩形范围索引

原理

对空间要素的外包络矩形进行索引。在进行空间范围查询时，分为两级过滤（筛选）。初次过滤根据空间要素外包络矩形来过滤掉大部分不在查询范围的空间要素，因为空间要素外包络矩形已被索引，所以初次过滤过程比较快，花费的代价比较小。第二级过滤则用查询空间范围直接和初次过滤结果集中空间要素的二进制边界坐标比较，从而得到查询的准确结果

索引维护及适应性

矩形范围索引由关系数据库直接维护，用SQL语句模型可以直接创建和删除，在添加、更新和删除空间要素时，不需要 SDE 来维护索引的变化。所以该索引具有很好的适应性，无需预知整个空间要素的空间范围，就能很容易建立空间索引；由大量实验结果表明，该索引在空间要素的个数在30万以下时，具有很高的效率，矩形范围查询初次过滤的响应时间均在1秒之内。但是空间要素的个数超过30万，索引的效率将随着空间要素的增长而下降，由试验数据表明，空间要素个数在200万左右时，利用该索引查询进行初次过滤，响应时间在5~18秒之间。所以该类型索引在中小型数据量的GIS系统中使用，具有较好的实用价值

单元格网索引

原理

将研究区域用横竖划分为大小相等或不等的网格，记录每一个网格所包含的空间要素。当用户进行空间查询时，首先计算出查询空间要素所在的网格，然后通过该网格快速定位到所选择的空间要素

索引维护及适应性

单元网格索引由于网格编码与区域相关，所以需要预测整个空间要素所在空间范围，然后根据此范围建立空间索引，一旦空间要素需要超出此范围，则需重新建立索引。在整个空间范围确定的情况下，索引的维护工作比较容易。

添加空间要素时，按规则计算出该空间要素的网格编码，添加到索引表中；更新空间要素时，删除该空间要素的索引记录，重新计算网格编码，添加到索引表中；删除空间要素时，直接删除该空间要素的索引记录即可。

单元网格空间索引的效率在网格单元大小适中的时候非常高。由试验数据表明，空间要素个数在200万左右时，如果网格单元大小划分合理的话，利用该索引查询进行过滤，响应时间最短可在2秒之内。所以该类型索引适用于大型数据量的，空间范围确定的GIS应用

R树索引

四叉树编码索引

原理

将已知的空间范围划成四个相等的子空间，将每个或其中几个子空间继续按照一分为四的原则划分下去，这样就形成了一个基于四叉树的空间划分

多级索引

原理

将空间范围进行多级划分，每一级划分的空间均采用单元网格索引，构成一个多级网格空间，以适应不同范围的高效查询；与四叉树不同的是每一次空间划分均为物理分割，一旦该级的网格确定，则需建立相应的物理表格存储该级的索引信息。

空间范围的每一级划分原理就是通过规则划分（矩形或正方形）将索引区域划分为不重叠的许多子空间（矩形或正方形），对于该索引区域建立一个范围索引表，记录每个子空间的范围、划分的级别和子空间索引表名称；对每个子空间单元再按照以上规则进行再次划分；对于最后一级的子空间，则为每个子空间单元建立一个子空间索引表，存储落在这个子空间之内的空间要素标识、外包络矩形；并且对于最后一级的子空间，如果包含的空间要素个数太多，可直接将该子空间物理分割成多个。

通过该方式索引，在进行空间检索时，可以直接访问空间区域覆盖的和与空间区域相交的子空间的索引表，然后对空间索引表进行进一步求精判断，以检索出符合要求的空间实体。由于进行了物理分割，那么单个空间索引表维持恒定且较少的记录数，而且空间索引表的字段域也只有几个，数据量大大减少，因此检索效率也就会比单级网格索引要高

索引综合性能对照表

元数据

关于空间元数据的定义，欧洲标准化委员会CEN/TC 287认为空间元数据是“描述地理信息数据集内容、表示、空间参考、质量以及管理的数据”，而美国联邦地理数据委员会FGDC和国际标准化组织地理信息/地球信息委员会ISO/TC 211则认为：空间元数据是“关于数据的内容、质量、条件以及其它特征的数据”。

总的来说，空间元数据是“关于数据的数据”，它在地理信息中用于描述地理数据集的内容、质量、表达方式、空间参考、管理方式以及数据集的其它特征，它是实现地理空间信息共享的核心标准之一

地理空间元数据与数据字典的主要区别在于：元数据是对关于数据集本身及其内容的全面分层次规范化的描述，且任何数据集的元数据描述格式和内容都是相同的，因而可以用相同的管理系统对所有数据集的元数据进行管理和维护；而数据字典只是描述数据集中的部分内容，且没有统一的规范和标准，不同数据集生产者只是根据不同需求对数据集内容作出描述或说明，因此不可用相同的管理系统进行统一的管理和维护

用途

用来组织和管理空间信息，并挖掘空间信息资源
帮助数据所有者查询所需空间信息
维护和延续一个机构对数据的投资。空间元数据可以确保一个机构对数据投资的安全。空间数据集建立后，随着机构中人员的变换以及时间的推移，后期接替该工作的人员会对先前的数据了解甚少或一无所知，这样便对先前数据的可靠性产生质疑，而通过空间元数据内容，则可以充分描述数据集的详细情况。同样，当用户使用数据引起矛盾时，数据提供单位也可以利用空间元数据维护其利益。
用来建立空间信息的数据目录和数据交换中心。数字地球中包含着各行各业的不同内容的信息，诸如农业、林业、交通、水利等许许多多专题信息，然而很少有一个组织产生的数据可能对其它组织也有用，而通过数据目录、数据代理机、数据交换中心等提供的空间元数据内容，用户便可以方便地得到符合自己要求的地理空间数据，并很容易地使用它们，从而它已成为实现地理空间信息跨部门、跨行业和跨区域共享的有效解决途径之一。当然，要想真正实现空间信息的全球共享，还涉及到处理空间信息的软件系统、空间信息的软件模型和数据格式以及国家的政策法规等。
提供数据转换方面的信息。在未来的空间信息中，均应当包含空间元数据信息，以便使用户在获取包含空间信息数据集的同时就可以得到空间元数据信息。通过空间元数据，人们便可以接受并理解数据集，且可以与自己的空间信息集成在一起，进行不同方面的分析决策，使地理信息空间信息实现真正意义上的共享，发挥其最大的应用潜力。

分类

Metadata类别结构图

内容

空间元数据标准体系的内容具体分为8个基本内容部分和4个引用部分，共由12个部分组成

基本内容部分

标识信息是关于地理空间数据集的基本信息。通过标识信息，数据集生产者可以对有关数据集的基本信息进行详细的描述，诸如描述数据集的名称、作者信息、所采用的语言、数据集环境、专题分类、访问限制等，同时用户也可以根据这些内容对数据集有一个总体的了解。
数据质量信息是对空间数据集质量进行总体评价的信息。通过这部分内容，用户可以获得有关数据集的几何精度和属性精度等方面的信息，也可以知道数据集在逻辑上是否一致，以及它的完备性如何，这是用户对数据集进行判断，以及决定数据集是否满足他们需求的主要判断依据。数据集生产者也可以通过这部分对数据集的质量评价方法和过程进行详细的描述。
数据集继承信息是建立该数据集时所涉及的有关事件、参数、数据源等的信息，以及负责这些数据集的组织机构信息。通过这部分信息便可以对建立数据集的中间过程有一个详细的描述，比如当一幅数字专题地图的建立经过了航片判读、清绘、扫描、数字地图编辑以及验收等过程时，应对每一过程有一个简要描述，使用户对数据集的建立过程比较了解，也使数据集生成的每一过程的责任比较清楚。
空间数据表示信息是数据集中表示空间信息的方式。它由空间表示类型、矢量空间表示信息、栅格空间表示信息、影像空间表示信息以及传感器波段信息等内容组成，它是决定数据转换以及数据能否在用户计算机平台上运行的必须信息。利用空间数据表示信息，用户便可以在获取该数据集后对它进行各种处理或分析了。
空间参照系信息是有关数据集中坐标的参考框架以及编码方式的描述，它是反映现实世界与地理数字世界之间关系的通道，诸如地理标识参照系统、水平坐标系统、垂直坐标系统以及大地模型等。通过空间参照系中的各元素，可以知道地理实体转换成数字对象的过程以及各相关的计算参数，使数字信息成为可以度量和决策的依据。当然，它的逆过程也是成立的，即可以由数字信息反映出现实世界的特征。
实体和属性信息是关于数据集信息内容的信息，包括实体类型、实体属性、属性值、域值等方面的信息。通过该部分内容，数据集生产者可以详细地描述数据集中各实体的名称、标识码以及含义等内容，也可以使用户知道各地理要素属性码的名称、含义以及权威来源等。

在实体和属性信息中，数据集生产者可以根据自己数据的特点，在详细描述和概括描述之间选择其一，以描述数据集的属性等特征。

发行信息是关于数据集发行及其获取方法的信息，包括发行部门、数据资源描述、发行部门责任、订购程序、用户订购过程以及使用数据集的技术要求等内容。通过发行信息，用户可以了解到数据集在何处，怎样获取、获取介质以及获取费用等信息。
空间元数据参考信息是有关空间元数据当前现状及其负责部门的信息，包括空间元数据日期信息、联系地址、标准信息、限制条件、安全信息、以及空间元数据扩展信息等内容，它是当前数据集进行空间元数据描述的依据。通过该空间元数据描述，用户便可以了解到所使用的描述方法的实时性等信息，从而加深了对数据集内容的理解。

引用部分

引用信息是引用或参考该数据集所需要的简要信息，它自己从不单独使用，而是被标准内容部分有关元素引用。它主要由标题、作者信息、参考时间、版本等信息组成。
时间范围信息是关于有关事件的日期和时间的信息，该部分是引用标准内容部分有关元素时要用到的信息，它自己不单独使用。
联系信息是与数据集有关的个人和组织联系时所需要的信息，包括联系人的姓名、性别、所属单位等信息。该部分是引用标准内容部分有关元素时要用到的信息，它自己不单独使用。
地址信息是同组织或个人通讯的地址信息，包括邮政地址、电子邮件地址、电话等信息。该部分是描述有关地址元素的引用信息，它自己不单独使用

时空数据模型

地理信息的时态性分析

时间的结构

线性结构：时间是一条没有端点，向过去和将来无限延伸的线轴
循环结构：反映了时间的周期性、稳定性
分支结构: 分为单向分支结构和双向分支结构，分别反映了具有不同的历史时间结构和未来时间结构的多个目标现象的时间结构，其中各分支具有两两正交性
多维结构: 是同一目标的演变经历，从不同时间角度来看，体现为时间的多维结构

时间的密度特性

时间的密度特性体现为以下模型：离散模型：时间与自然数同构，每个自然数对应一个时间粒子，是一种较常用的结构；紧凑模型：时间与有理数/实数同构；连续模型：时间与实数同构，每个实数对应时间上一个点

时间的不确定性

GIS中的数据在空间、非空间属性上都具有不确定性，同样在时态性上也存在着不确定性。当某事件发生是已知的，但何时发生是未知的，则称该事件是时态非确定的

时间的多标度性

时间多标度性是指用于度量时间的尺度的多样性，时间标度也称时间分辨率或时间粒度。不同的应用领域，及用一应用领域中的不同应用范围，都可能采用不同的时间标度。 GIS中时间标度的选择存在着理想的时间精度和节约内存开销相互权衡的问题

时态GIS数据模型

时间作为新的一维（时空立方体模型）
连续快照模型
基态修正法:为了避免连续快照模型将每张未发生变化部分的快照特征重复进行记录，基态修正模型按事先设定的时间间隔采样，不存储研究区域中每个状态的全部信息，只存贮某个时间的数据状态称为基态，以及相对于基态的变化量。基态修正的每个对象只需存储一次，每变化一次，只有很小的数据量需要记录；同时，只有在事件发生或对象发生变化时才存入系统中，时态分辨率值与事件发生的时刻完全对应。基态修正模型不存储每个对象不同时间段的所有信息，只记录一个数据基态和相对于基态的变化值，提高了时态分辨率，减少了数据冗余量
时空复合模型