4.2.1.1 数据仓库的基本概念
数据仓库这个术语最早在20世纪80年代被提出,当时是为了解决企业的数据集成问题。该术语被提出之后,作为一种新兴的计算机应用技术,人们对它的理解各有不同。有人认为数据仓库就是一个大的数据库,也有人认为数据仓库是一项数据管理和分析技术。这些理解似乎都能说明数据仓库的某些特性,但又不够全面。直到1992年,比尔·恩门在《建立数据仓库》一书中第一次给出了数据仓库的清晰定义:“数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Vola-tile)、反映历史变化(Time Variant)的数据集合,用于支持管理中的决策制定。”比尔·恩门的实战法则为数据仓库的大规模应用打下了坚实的基础。随后拉尔夫·金博尔推出了《数据仓库的工具》一书,对数据仓库的构建给出了新的方向。比尔·恩门强调数据的一致性,主张用自顶向下的方法创建总体可用的数据仓库,但是要一开始就完成是很困难的。拉尔夫·金博尔认为务实的数据仓库建设应该自底向上,从局部到整体,从部门到企业总体,并把部门级的数据仓库叫做“数据集市(DataMart)”。由此形成了自顶向下和自底向上两种主流的数据仓库构建思路。
建立数据仓库的目的主要是将企业系统运营过程中产生的数据存储起来并加以利用。在过去的几十年中,随着数据模型、数据库技术和应用开发技术等各种计算机技术的不断拓新,数据仓库技术也得到了很大的进步,并在实际应用中发挥了巨大的作用。
数据仓库优越的特性对于数据密集型行业,比如银行、证券、保险、电信等,有着莫大的吸引力。在发达国家,以数据仓库为基础的在线分析处理和数据挖掘应用首先在这些行业得到了推广和普及。随着众多成功案例的出现,数据仓库在使用量和相关技术产品数量两个层面都不断取得迅猛的发展。
在我国,虽然信息化建设起步较晚,但是数据仓库在各领域的应用,包括在金融行业的应用,已取得较大的应用成果。某国有银行是我国早期实施数据仓库项目比较成功的银行之一。其成功的主要因素有:成立了数据仓库决策委员会;项目组织结构随项目进度调整,前期组织结构面向开发,后期面向测试;重视元数据管理和优化、数据质量检查、系统监控和管理;针对超大数据量制定了可行的备份恢复策略;建立全行统一的统计指标库等。
除了大型商业银行外,各中小型商业银行也纷纷建立了自己的数据仓库,并逐步开展数据迁移、整理,不断完善数据仓库建设,数据管理的能力越来越强。目前,数据仓库日益成为大型金融机构不可或缺的基础设施。中国银行业监督管理委员会在《中国银行业实施新资本协议指导意见》的通知中指出:“国际经验表明,信息技术支出是实施新资本协议主要的成本。各行应将实施新资本协议相关的数据仓库和信息系统开发纳入整体IT建设规划,节约实施成本”。
4.2.1.2 数据仓库的特点(www.zuozong.com)
数据仓库有以下四个重要特点:
1.面向主题 数据仓库是面向主题的。所谓主题就是分析、决策的目标与要求,这种要求是决策者根据工作需要而提出的,最终落实为决策者服务。所谓面向主题,就是说数据仓库中的数据要按照主题的要求组织。因此,主题是构建数据仓库的核心与灵魂。一般来说,一个数据仓库可以有一个乃至若干个主题,并且主题还能分解为子主题,从而组织为主题层次。面向主题是数据仓库独特的、有别于数据库的一个重要特性。适用于银行的主题一般包括当事人、内部机构、产品、协议、事件、地址、渠道、营销、财务、客户资产等。
2.集成 分析和决策需要大量的数据,以便分析、比较和鉴别。数据仓库中的数据一般来自多个数据源,而这些源数据库之间的数据存在大量重复和不一致的情形,在导入数据仓库的过程中只有经过系统加工和清理,才能进行下一步的整合,这往往是数据仓库建设中最为复杂也是最为关键的一步。
3.相对稳定 数据仓库的数据主要供企业决策分析用。由于分析的需要,其数据必须反映客观世界的真实性,同时,数据进入数据仓库后,还需要相对稳定地长期保存,这是保证决策正确的基础条件。数据仓库的操作多为查询,修改和删除操作很少,这也是数据仓库相对稳定的一个关键因素。
4.反映历史变化 随着时间的推移,不同时间段的数据导入数据仓库,使得数据仓库中包含着大量的历史数据信息。为了方便地通过对历史数据的挖掘来对业务发展的未来趋势做出定量分析和预测,数据仓库中既要存放体现历史时间状态的数据信息,也要以一定的时间段为单位进行阶段式保存,而不是进行随机连续的保存。这种反映历史时间状态变化的数据具有阶梯式的表现形式。
由此可知,数据仓库和数据库的最大差别在于,数据仓库以数据分析、决策支持为目的来组织存储数据,而数据库的主要目的则是为生产运营系统保存数据。建设数据仓库的背景是:业务系统的建设已逐渐完善,积累了巨量的数据信息;分析类需求不断增加,孤岛式的分析应用造成巨大的资源浪费和管理困难;各个业务系统数据库异构,数据来源口径多、标准不统一,信息孤立。在这样的背景下,通过整合分散的数据库应用,建设集中的数据仓库,能大幅提升效率,满足综合分析、复杂查询、智能营销等高级需求。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。