数据仓库分层及命名规则

数据仓库中的数据要想真正发挥最大的作用，必须对数据仓库进行分层，数据仓库分层的优点如下。

● 把复杂问题简单化。可以将一个复杂的任务分解成多个步骤来完成，每层只处理单一的步骤。

● 减少重复开发。规范数据分层，通过使用中间层数据，可以大大减少重复计算量，增加计算结果的复用性。

● 隔离原始数据。使真实数据与最终统计数据解耦。数据仓库具体如何分层取决于设计者对数据仓库的整体规划，不过大部分的思路是相似的。

本数据仓库分为五层，如下所述。

● ODS层：原始数据层，存放原始数据，直接加载原始日志、数据，数据保持原貌不做处理。

● DWD层：明细数据层，对ODS层数据进行清洗（去除空值、脏数据、超过极限范围的数据）、维度退化、脱敏等。

● DWS层：服务数据层，以DWD层的数据为基础，按天进行轻度汇总。

● DWT层：主题数据层，以DWS层的数据为基础，按主题进行汇总，获得每个主题的全量数据表。

● ADS层：数据应用层，面向实际的数据需求，为各种统计报表提供数据。数据仓库分层后要遵守一定的数据仓库命名规范，本项目中的规范如下。

1.表命名ODS层命名为ods_表名。

DWD层命名为dwd_dim/fact_表名。DWS层命名为dws_表名。

DWT层命名为dwt_购物车。ADS层命名为ads_表名。临时表命名为tmp_×××。用户行为表以.log为后缀。

2.脚本命名脚本命名格式为数据源to目标_db/log.sh。用户行为需求相关脚本以.log为后缀；业务数据需求相关脚本以.db为后缀。