为什么说数据仓库的开发是一个不断循环，逐步提升的开发过程？

2024-05-16

1. 为什么说数据仓库的开发是一个不断循环，逐步提升的开发过程？

原因有以下几点：
1.数据仓库是根据公司业务量，以及业务部门需求逐步开发的
2.数据仓库和公司员工的业务水平有很大关系，一般是循序渐进的提升的
3.数据仓库的资源也是根据公司发展慢慢扩大的，不可能一步到位

2. 为什么说数据仓库的开发是一个不断循环，逐步提升的开发过程？

这位朋友： 一、目前，能使用数据仓库的行业比较多，但是重点的可以归纳一下几个：电信，电力，银行，证券，金融，保险，政府，税务，制造，酒店餐饮，零售，物流，医疗，其他。就目前的现状而言，电信，银行，证券，金融，保险，这几个行业的信息化比较早，所以基本上有自己的DW或者BI了，电力，政府，税务，制造，酒店餐饮，零售，物流，医疗这些都属于刚刚起步的行业，或者说ERP等已经有很好的使用和数据积累，但是BIDW还在刚发展中，我个人觉得就市场而言，电力属于垄断比较强的，就算要做BIDW也是业内的几家公司做。政府，税务这样的企业，安装销售的话来说，水太深，莫不到底。而我觉得比较好开发的市场应该是制造，零售，而餐饮酒店和医疗等，比较分散，数据难集中。 二、数据库可以分为三个层次，第一是基础的构架，其次是报表和统计，最后的境界就是分析和挖掘，目前我认为，大部分都是处于报表的展现和数据的统计上，当然也有分析和挖掘的项目，但是这些项目都是一些很简单的分析挖掘，还没有达到较高的水准，分析和挖掘其实需要的是懂业务的和懂技术算法的人来操作，而不是简单的看看报表就可以完事的。比如我们经常会注意一个指标比同期下降了，但是如果要用数据化的东西来说明为什么下降了，你可以做到吗？怎么样去找一些对于这些指标的关键元素，怎么样去找这些指标的关系元素，等等之类的，都还是需要我们好好的琢磨，不是简简单单的用几个维度来表示就可以了，有的时候关键元素，甚至和这些指标没有直接的元素，但是确确实实存在。 三、伟大的建筑来自一砖一石的堆砌；丰富的经验源于一点一滴数据的积累。所以说数据仓库的开发是一个不断循环，逐步提升的开发过程。 上述观点是否满意，仅供参考。

3. 数据仓库开发过程中的七个禁忌

　　过去我们一直使用的OLTP技术也许隐藏着许多严重的缺陷 数据仓库的实现并不是一个简单的任务 你会发现以前积累下来的丰富经验 并不适合处理每个数据仓库的独特需求 　　　　下面列出的条款是你在实现数据仓库过程中一定会面对的问题 其中一些看起来并没有想象中那么严重 但是你还是应该尽量避免出现类似问题 数据仓库并不是一个事务处理系统 它没有一定的标准也不会实现某个特定的应用 但它本质上是非常有组织性的 总之 每个公司所建立的数据仓库都是唯一的 并且每一次数据仓库的实现方法都不是一成不变的 在实现数据仓库时需要注意的不单是 应该如何作 更要注意 不该如何做 下面就是我们总结的七点 不该如何作 　　　　 不要编写自己无法快速修改的代码　　你所要编写的程序主要用于数据分析 而不是处理事务 而你的用户也并不真正知道他们自己真正想要一个什么样的程序 因此你不得不反复修改代码好几次 才会明白用户到底需要一个什么样的程序 如果你编写的程序具有良好的结构和灵活性 就算需要修改也不会太浪费力气 反之 你会被自己累死 　　　　 不要使用无法修改的数据库访问API　　在过去 你的数据库可以为大量的客户提供稳定的数据查询服务 而如今 你的程序必须能够应付更多的数据查询 这使得重新改写程序以使得每个查询请求能得到最大的数据量成为势在必行的工作 而一般来说这种代码修改都不会一次成功 所以只有选择合适的可以修改的API 才能使程序尽快适应新的需求 　　　　 不要设计任何无法扩展的东西　　在联机处理过程（OLTP）应用中 数据分析并不是一个真正的应用程序 实际上 数据分析的关键是获取大量旧的数据 从中提取数据模型 并以此模型推断出新的信息 而你所编写的访问潜在信息的代码应该具有可扩展性 可以附加新的数据 千万别在支持数据分析的代码中假定数据都是固定格式的 不要附加不必要的功能　　一个仓库要做的是恰到好处的服务 用户走进仓库 从货架上取得自己所需得信息 仅此而已 由于业务智能 分析以及规律性的问题都有各自的处理程序 因此你的客户唯一的需要就是获取信息 他们需要一种应用环境 可以让他们快速的从数据仓库中取得分析过程所需的数据 而不论这个数据是什么样子的 也许你想帮助他们精炼一下获得的数据 但最好不要这么做 一定要记住 不要给客户的数据分析程序添加任何会影响数据访问性能的功能 　　　　 不要简化数据清除和数据源分析的步骤　　在实现数据仓库过程中最应该注意的地方就是为Extract Transform Load机制分析数据源 以及为优化负载而清除数据 安全的做法是假设项目经理在这个阶段会需要整个项目资源的一半以上 相反 如果你在这方面进行了简化 稍后肯定会后悔 所以就算系统工作缓慢 也不要简化清理旧的数据的过程 　　　　 不要避免颗粒度和分区问题　　在数据仓库设计过程中有两个最大的数据存储问题 第一是如何给转换数据定位一个恰当的颗粒度等级 第二是如何将数据绝对的分区 为什么这两点问题如此重要呢？因为整个数据仓库的响应能力受颗粒度影响 并且数据访问的效率直接与数据分区性能有关 因此这是具有关键性的工作 不要试图避免面对这些问题 　　　　 不要在没考虑业务问题前就使用OLAP　　用户在亲眼见到程序前通常都不知道自己到底想要个什么样的程序 因此他们的观点有不少错误 比如他们希望分析结果会忠实反应性能度量 或者希望程序会使他们部门或公司的业务工作有所不同 而你必须跳出自己的职责范围 从IT管理者的角度考虑用户部门直至整个企业的运行方式 才能在开发过程中避免这类问题 在通常的OLTP开发中 你可以比较方便的理解业务流程 而在联机分析处理（OLAP）领域 任何事情都需要亲自考察 而在你周围工作的人也许并不会发现你对业务方面存在的误解 因此 不要自以为已经了解了足够的信息 不断的询问才能使你真正了解 业务智能 中的 业务 到底是什么样子的 lishixinzhi/Article/program/Oracle/201311/16760

数据仓库开发过程中的七个禁忌

4. 数据库开发工具的发展大致经历了哪四个主要阶段?

一、数据库技术的历史和发展
    
 数据库技术是本世纪60年代开始兴起的一门信息管理自动化的新兴学科，是计算机科学中的
一个重要分支。随着计算机应用的不断发展，在计算机应用领域中，数据处理越来越占主导
地位，数据库技术的应用也越来越广泛。
    数据库是数据管理的产物。数据管理是数据库的核心任务，内容包括对数据的分类、组织、
编码、储存、检索和维护。随着计算机硬件和软件的发展，数据库技术也不断地发展。从数据
管理的角度看，数据库技术到目前共经历了人工管理阶段、文件系统阶段和数据库系统阶段。 A.人工管理阶段 人工管理阶段是指计算机诞生的初期(即20世纪50年代后期之前)，这个时期的计算机主要用
 于科学计算。从硬件看，没有磁盘等直接存取的存储设备；从软件看，没有操作系统和管理
 数据的软件，数据处理方式是批处理。    这个时期数据管理的特点是：
 
  1. 数据不保存
 
  该时期的计算机主要应用于科学计算，一般不需要将数据长期保存，只是在计算某一课题
  时将数据输入，用完后不保存原始数据，也不保存计算结果。
 
  2. 没有对数据进行管理的软件系统
 
  程序员不仅要规定数据的逻辑结构，而且还要在程序中设计物理结构，包括存储结构、存
  取方法、输入输出方式等。因此程序中存取数据的子程序随着存储的改变而改变，数据与
  程序不具有一致性。
 
  3. 没有文件的概念
 
  数据的组织方式必须由程序员自行设计。
 
  4. 一组数据对应于一个程序，数据是面向应用的
 
  即使两个程序用到相同的数据，也必须各自定义、各自组织，数据无法共享、无法相互利
  用和互相参照，从而导致程序和程序之间有大量重复的数据。 B.文件系统阶段    文件系统阶段是指计算机不仅用于科学计算，而且还大量用于管理数据的阶段(从50年代后
    期到60年代中期)。在硬件方面，外存储器有了磁盘、磁鼓等直接存取的存储设备。在软件
    方面，操作系统中已经有了专门用于管理数据的软件，称为文件系统。    这个时期数据管理的特点是：  1. 数据需要长期保存在外存上供反复使用  由于计算机大量用于数据处理，经常对文件进行查询、修改、插入和删除等操作，所以数
  据需要长期保留，以便于反复操作。  2. 程序之间有了一定的独立性  操作系统提供了文件管理功能和访问文件的存取方法，程序和数据之间有了数据存取的接
  口，程序可以通过文件名和数据打交道，不必再寻找数据的物理存放位置，至此，数据有
  了物理结构和逻辑结构的区别，但此时程序和数据之间的独立性尚还不充分。  3. 文件的形式已经多样化  由于已经有了直接存取的存储设备，文件也就不再局限于顺序文件，还有了索引文件、链
  表文件等，因而，对文件的访问可以是顺序访问，也可以是直接访问。     4. 数据的存取基本上以记录为单位 C.数据库系统阶段    数据库系统阶段是从60年代后期开始的。在这一阶段中，数据库中的数据不再是面向某个应
    用或某个程序，而是面向整个企业(组织)或整个应用的。    数据库系统阶段的特点是：     1. 采用复杂的结构化的数据模型     数据库系统不仅要描述数据本身，还要描述数据之间的联系。这种联系是通过存取路径来
     实现的。     2. 较高的数据独立性     数据和程序彼此独立，数据存储结构的变化尽量不影响用户程序的使用。     3. 最低的冗余度     数据库系统中的重复数据被减少到最低程度，这样，在有限的存储空间内可以存放更多的
     数据并减少存取时间。     4. 数据控制功能     数据库系统具有数据的安全性，以防止数据的丢失和被非法使用；具有数据的完整性，以
     保护数据的正确、有效和相容；具有数据的并发控制，避免并发程序之间的相互干扰；具
     有数据的恢复功能，在数据库被破坏或数据不可靠时，系统有能力把数据库恢复到最近某
     个时刻的正确状态。二、三代数据库系统的发展    数据模型是数据库系统的核心。按照数据模型发展的主线，数据库技术的形成过程和发展可从
以下三个方面反映：    A. 第一代数据库系统  层次和网状数据库管理系统    层次和网状数据库的代表产品是IBM公司在1969年研制出的层次模型数据库管理系统。层次
    数据库是数据库系统的先驱，而网状数据库则是数据库概念、方法、技术的奠基。    B. 第二代数据库系统  关系数据库管理系统(RDBMS)    1970年，IBM公司的研究员E.F.Codd在题为《大型共享数据库数据的关系模型》的论文中提
    出了数据库的关系模型，为关系数据库技术奠定了理论基础。到了80年代，几乎所有新开发
    的数据库系统都是关系型的。    真正使得关系数据库技术实用化的关键人物是James Gray。Gray在解决如何保障数据的完整
    性、安全性、并发性以及数据库的故障恢复能力等重大技术问题方面发挥了关键作用。    关系数据库系统的出现，促进了数据库的小型化和普及化，使得在微型机上配置数据库系统成
    为可能。    C. 新一代数据库技术的研究和发展    目前已从多方面发展了现行的数据库系统技术。我们可以从数据模型、新技术内容、应用领
    域三个方面概括新一代数据库系统的发展。    (1) 面向对象的方法和技术对数据库发展的影响最为深远    80年代，面向对象的方法和技术的出现，对计算机各个领域，包括程序设计语言、软件工程、
    信息系统设计以及计算机硬件设备等都产生了深远的影响，也给面临新挑战的数据库技术带
    来了新的机遇和希望。数据库研究人员借鉴和吸收了面向对象的方法和技术，提出了面向对
    象的数据库模型(简称对象模型)。当前有许多研究是建立在数据库已有的成果和技术上的，
    针对不同的应用，对传统的DBMS，主要是RDBMS进行不同层次上的扩充，例如建立对象关
    系(OR)模型和建立对象关系数据库(ORDB)。    (2) 数据库技术与多学科技术的有机结合    数据库技术与多学科技术的有机结合是当前数据库发展的重要特征。计算机领域中其他新兴
    技术的发展对数据库技术产生了重大影响。传统的数据库技术和其他计算机技术的结合、互
    相渗透，使数据库中新的技术内容层出不穷。数据库的许多概念、技术内容、应用领域，甚
    至某些原理都有了重大的发展和变化。建立和实现了一系列新型的数据库，如分布式数据库、
    并行数据库、演绎数据库、知识库、多媒体库、移动数据库等，它们共同构成了数据库大家
    族。    (3) 面向专门应用领域的数据库技术的研究    为了适应数据库应用多元化的要求，在传统数据库基础上，结合各个专门应用领域的特点，
    研究适合该应用领域的数据库技术，如工程数据库、统计数据库、科学数据库、空间数据库、
    地理数据库、Web数据库等，这是当前数据库技术发展的又一重要特征。    同时，数据库系统结构也由主机/终端的集中式结构发展到网络环境的分布式结构，随后又发
    展成两层、三层或多层客户/服务器结构以及Internet环境下的浏览器/服务器和移动环境下的
    动态结构。多种数据库结构满足了不同应用的需求，适应了不同的应用环境。