数据仓库构建方法中,ETL的过程和传统的实现方法有一些不同,主要分为四个阶段,分别是抽取
(extract)、清洗(clean)、一致性处理(comform)和交付(delivery),简称为ECCD。
1.抽取阶段的主要任务是:
读取源系统的数据模型。
连接并访问源系统的数据。
变化数据捕获。
抽取数据到数据准备区。
2.清洗阶段的主要任务是:
清洗并增补列的属性。
清洗并增补数据结构。
清洗并增补数据规则。
增补复杂的业务规则。
建立元数据库描述数据质量。
将清洗后的数据保存到数据准备区。
3.一致性处理阶段的主要任务是:
一致性处理业务标签,即维度表中的描述属性。
一致性处理业务度量及性能指标,通常是事实表中的事实。
去除重复数据。
国际化处理。
将一致性处理后的数据保存到数据准备区。
4.交付阶段的主要任务是:
加载星型的和经过雪花处理的维度表数据。
产生日期维度。
加载退化维度。
加载子维度。
加载1、2、3型的缓慢变化维度。
处理迟到的维度和迟到的事实。
加载多值维度。
加载有复杂层级结构的维度。
加载文本事实到维度表。
处理事实表的代理键。
加载三个基本类型的事实表数据。
加载和更新聚集。
将处理好的数据加载到数据仓库。
从这个任务列表中可以看出,ETL的过程和数据仓库建模的过程结合的非常紧密。换句话说,ETL系统的设
计应该和目标表的设计同时开始。通常来说,数据仓库架构师和ETL系统设计师是同一个人。 |