数据仓库的构建方法分析

数据仓库的构建方法分析

随着不同的管理信息系统(MIS)在企业不同部门的大规模应用,以及企业对数据管理的新要求,不仅要求传统的在线事务处理,而且越来越多的应用要求在企业积累的和从外部企业获得的丰富信息资源的基础上,利用这些分散的、不一致的和杂乱的信息资源,即更多地参与数据分析和决策支持,于是出现了一种数据分析和决策支持。

1.什么是数据仓库

数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用于支持企业管理中的决策过程。数据仓库为用户提供用于决策支持的当前和历史数据,这些数据在传统的操作数据库中很难或不可能获得。

面向主题是指数据仓库中的数据是按照一定的主题领域来组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的关键方面。一个主题通常与多个操作信息系统相关。集成是指在提取和清理原始分散的数据库数据的基础上,对数据仓库中的数据进行系统的处理、汇总和排序,必须消除源数据中的不一致性,以保证数据仓库中的信息是一致的,是关于整个企业的全局信息。

数据仓库的体系结构分为数据源、数据转换、数据仓库、数据集市和用户。数据源,包括内部业务数据、遗留数据、其他业务系统数据和相关WEB数据;数据转换是数据仓库建设的重要环节,主要涉及对各种复杂数据源的提取、转换、加载等处理,同时需要实现数据质量跟踪监控,以及元数据的提取和创建。数据仓库主要实现各种数据的组织、存储和管理;数据集市(Data mart)是针对不同的业务分别设计的数据仓库系统,即开发者为企业内部不同的用户群定制专门的数据仓库子系统。用户部分,即面向用户的应用部分,主要指数据仓库访问和检索为用户提供访问数据仓库或数据集市的功能。其中,分析与报告为用户使用数据仓库提供了一套工具,帮助用户对数据仓库或数据集市进行在线分析或数据挖掘。

2.数据仓库的构建方法

2.1通用数据仓库构建方法。对于通用数据仓库的建设,企业会在综合整个系统建设中各种因素的基础上,分阶段、分步骤地实施整个项目。他们可以在每个阶段建设的基础上,分阶段纳入不同的业务系统,逐步建立适合部门和分单位的全面完整的数据仓库系统,尽快取得投资收益。

在构建数据仓库的过程中,模糊数学可以实现数据仓库中数据的语义表示,丰富数据处理手段,提高分析处理能力。数据仓库的建设一般采用先建立数据集市,最后整合所有数据集市形成数据仓库的渐进式模式;通过概念层、逻辑层和物理层的建模,在线确定和分析相关学科领域的数据集市。构建数据仓库模型一般采用以下类型:

2.1.1星型模型:星型模型是数据仓库设计结构最常用的实现方式。数据仓库形成一个集成系统,为用户提供分析服务对象。模型的核心是事实表,维度表围绕着事实表。各种维度表由事实表连接,每个维度表都连接到中央事实表。[page] 2.1.2星系模型(也叫雪花模型):雪花模型进一步规范了星型模型的维度表,规范了星型模型中的维度表。同时,它是星型模型的扩展,每个维度可以连接多个详细的类别表。在实际应用中,用户的需求是多种多样的,数据源可能是多个事实表,因此可以采用一个galaxy模型,也称为事实星座,存储在多个事实表中,通过公共维度表关联。

2.1.3原子级数据模型和汇总级数据模型并存:坚持原子级数据模型和汇总级数据模型并存,尽可能细化原子级数据。

2.1.4设置代理键:代理键是维度表中没有业务意义的字段,只是数据仓库加载程序时创建的数字。

2.2空间数据仓库的构建方法。随着GIS(地理信息系统)在各行业的广泛应用,原本面向事务处理的空间数据库信息系统已经不能满足需要,信息系统开始从管理转向决策处理。空间数据仓库就是为满足这一新需求而提出的空间信息集成系统。特别是在地理信息决策支持系统中,空间数据仓库系统尤为重要。

空间数据仓库具有普通数据仓库的一般特征,但又有一些特殊性。空间数据仓库不是空间数据库的简单集合。与空间数据库相比,空间数据仓库不仅支持数据库,还支持数据文件、文本文件、应用程序等多种数据源。此外,空间数据仓库中的数据包括时间数据、空间数据、属性数据和异构数据。其次,空间数据仓库还包括数据处理规则和算法。再次,空间数据仓库的数据是对原始数据的加工、处理、集成等转化,是数据的增值和统一;空间数据库还引入了时间垂直的概念,以时间为基础管理数据,可以截取不同时间尺度上的信息,从瞬态到截面时间再到整体。空间数据仓库是一种依赖于时间维度的数据结构,可以根据不同的需求划分不同的时间粒度级别,用于各种复杂的趋势分析。当然,不言而喻,它还包含空间维度的方位数据。由于空间数据仓库与普通数据仓库的区别,以及其空间数据仓库的概念完全不同,普通空间数据仓库分为四个功能模块,具有以下架构,即源数据、数据转换工具、空间数据仓库和客户端分析工具。源数据不仅指那些常见的空间数据库,还包括文件、网页、知识库、遗留系统和其他数据源。数据转换工具具有与普通数据仓库数据转换相同的提取和转换功能,但它还包括独特的空间转换。空间数据仓库以三维和多维的方式组织和显示数据。而最基本的空间维度和时间维度是反映客观世界动态变化的基础,空间数据仓库技术最关键的一点就是时间维度和空间维度的组织方式。目前,空间数据仓库已经成为国内外GIS(地理信息系统)研究的热点,并取得了很大的进展。为了将空间信息整合到企业现有的数据仓库中,在不大幅改动原系统的前提下,一般采用三种模式来构建企业空间数据仓库:(1)在多维模型中引入空间信息作为空间维度;(2)引入空间信息作为研究课题;(3)空间信息包含在维度和度量中。因此,计算和存储所有空间度量是不现实的。通常,空间索引树(如R树)用于以最细的空间粒度构建分组层次结构。作为空间维度的层次结构,需要为每个空间维度建立空间索引树。

3.结束语

总之,数据仓库的建设是数据仓库技术的关键,数据仓库技术是一种基于数据管理和利用的综合性技术和解决方案,特别是空间数据仓库在GIS中的广泛应用,已经成为数据库市场新一轮的增长点和下一代信息系统的重要组成部分。