编辑导语:本篇作者是给我们讲述了数据组成及其表现形式,重点讲解了“数据分层”这个概念的意义、背景、逻辑和其应用等,一起来看一下。
文章插图
上一节讲述了数据的基本定义,按正常流程应该来为大家介绍数据的采集和处理,但是这一节主要来说明数据组成以及表现形式。因为这对一个数据产品而言是至关重要的一部分,好比必须要学好数学,你掌握了阿拉伯数字之后必须要掌握四则运算一样。现在咱们来讲一下数据的“四则运算”。
讲到这里,咱们就要引入一个概念“数据分层”。讲数据分层之前,咱们先来说一个贴近现实生活的例子,帮助大家更好地理解数据分层:
如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。
简单来说,数据分层是把现实世界中收集到的有效信息用更加合理的方式表现出来,从而可以更快速的去解决问题。
一、数据分层的意义还记得上篇文章中,我们如何定义数据的吗?
数据:是通过观测得到的数字性的特征或信息。
所以,数据只是我们对客观世界的记录,而数据建模是我们对数据的抽象,为什么要对数据进行抽象呢?
设想一下这样的场景,数据爆炸的时代,数据的体量每天、每小时、甚至每秒都在激增。当这样的数据不断的出现,没有一套科学的方法去对这些数据进行整理和归档,我们永远无法从海量数据中获取到有价值的数据。
所以数据分层的意义在于:
- 降低存储成本:减少不必要的数据冗余,从而极大地降低存储和计算成本,更好且有效的利用数据。
- 提高使用效率:当业务发生变化时,可以更加方便的进行扩展,提高数据稳定性和连续性。
- 保障数据质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。
二、数据分层的背景当企业发展到一定阶段,传统的数据库无法承载大量的数据承载,尤其在数据多而繁杂的情况下,对于使用者,需要数可以更加清晰且有逻辑的适用;对于维护者可以高效有序的进行维护,分层数据设计,即数据仓库dw应运而生。
说起数据仓库,不得不提到创造他的人,比尔.恩门(Bill Inmon)。他在自己的著作《建立数据仓库》一书中所提出的数据仓库的定义:“数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。”
简单来解释,就是把大量数据更有逻辑的组合在一起,并且同时方便使用者和创建者进行操作与应用。
三、数据分层的逻辑上面两个图可以很清晰的看出分层后的好处,把一团乱麻的数据表进行分层和整理。数仓分层的价值在于:
- 方便使用:将多而繁杂的数据表通过一定的结构进行规范,便于使用方进行使用。
- 追溯源头:分层后的数据血缘非常明确,可以快速获取上游数据的来源。
- 易于维护:规范后数据可以减少数据开发,节约各类计算存储资源,方便维护人员进行维护。
- 简化工作:当发生变化时,可以针对单点进行针对处理,大大简化工作量。

文章插图
那我们如何进行数据分层呢?大概需要分几层呢?
其实这个问题需要根据实际的业务状况以及需要处理的数据体量来进行划分,介绍分层之前,咱们先来了解下会有哪些分层,每层的作用和目的是啥。
1.第一层:操作数据存储层 ODSODS层中的数据是从各类业务系统中(销售系统、客户关系管理系统等等)直接汇入本层。本层数据本身的特点是基本上最大程度还原业务系统中的数据。接入之前需要进行清洗等操作,保证接入本层的数据尽可能是洁净可用的。
ODS层的表通常包括两类,一个用于存储当前需要加载的数据,一个用于存储处理完后的历史数据。
特点:分层中最细粒度的数据,整体数仓中最底层的数据,进行简单加工后直接从业务系统接入。
- 三星|顶配旗舰重回最低价,三个月降价四百,12G+256G+120W
- 华为鸿蒙系统|都2021年底了,为何Mate40Pro还是目前公认最好用的“安卓”手机
- 杜比|2021年度排名TOP5的网络机顶盒,买哪个最靠谱?
- 优派|美国很满意:150多家芯片厂商,都“自愿”提交了详细数据
- spring|性能最强5G手机,现在现货供应,好评率97%
- 游戏手机|安兔兔11月性能榜解析,游戏手机之外vivo成最大赢家
- |联想小新air和pro的区别大吗?哪个性能更强?详细解读
- realme|盘点2021年最受好评的四款智能手表,双十二这样买不会出错
- 中兴|为数字化转型夯实地基,中兴成为企业转型的最佳拍档
- sim卡|骁龙888最后的“疯狂”:8+128G直降1400,这不像黄章干的事
