昨天讲平台、今天变中台,数据中台都干了啥?
数据中台火的很让人不解,半年前还在炒概念,现在突然就看到各个企业都在宣传自家的数据中台了。这半年,大家热衷于讨论什么是“数据中台”,并且还有“有一千个企业,就有一千个数据中台”的说法,但实际上企业都有“共识”,我们采访了多家企业,想给大家一个准确的“数据中台”定义。
为解决数据烟囱而来
中国企业的大数据发展大概经历了三个阶段。
第一阶段,是 2000 年之后的企业内部信息化,中国许多大型企业开启了一波以数据库、ERP 为主的底层 IT 建设,进行了初步的“业务数据化”建设。第二阶段,是 2004 年到 2012 年,随着 BAT 纷纷上市,互联网经济的崛起,让数据思维深入各行各业,数据量慢慢壮大。第三阶段是 2013 年之后,移动互联网的发展,一些金融、零售等大型企业响应“互联网+”概念,走向线上线下深度融合,这时数据服务的形式开始增多,业务维度更加复杂。
将数据用起来,随时随地分析企业情况进行精细化运营,企业需要打通老一代 ERP、数据库等 IT 系统,同时还需要应对业务增多且快速变动的情况。而且大企业之间各部门之间的数据往往都没有“共享”,运用不同的开发队伍开发平台和工具的不统一,这时,数据服务往往就是一个个从各平台伸出的数据“烟囱”。
以前数据量少的时候,建数据烟囱是没有问题的。但随着数据越来越多,假如一个企业有数十个甚至上百个应用的时候,就会有有明显的重复建设、资源浪费,甚至更严重的是因建设者不同而造成口径标准都不一致。另一方面,数据量庞大的时候,增删改查也会变得非常缓慢。“数据中台”就是这样随需求而来的概念,希望存在一个提供公共的数据服务能力的地方,大家可以从这里快速获取这些能力,来支撑新的数据应用,且各部门都能保持一致。
袋鼠云 CEO 拖雷说:“数据中台可以理解为企业的最核心的数据大脑,企业全域的数据处理中心,是一种企业信息化的升级过程,从过去的烟囱式(企业信息化 1.0)升级到现在的中台式(企业信息化 2.0),1.0 时代,系统与数据都是割裂的,没法发挥最大价值,在 2.0 时代,底层系统是共享的,微服务化的,中心化的,所有的应用,数据都采用服务化的方式来共享资源,最大化的提升灵活度与便捷性,随着敏捷开发的普及,中台思想也带来快速的创新。”
百分点程佳回复我们:“数据中台是一个集数据采集、融合、治理、组织管理、智能分析为一体,将数据以服务方式提供给前台应用,以提升业务运行效率、持续促进业务创新为目标的整体平台。帮企业把数据用起来,提升决策水平是对数据中台的一个最基础的要求。”
网易严选魏文庆则用了一个很形象的比喻:“打个比方,当我一家人要吃饭,我自己买菜,在自己的厨房用普通的厨具自己做就好了,如果是富士康,几万几十万人吃饭,就需要建食材的加工配送中心 (类比数据中台)。本质上是需求规模量级的变化,导致解决方案的质变”。
数据中台和数据平台有何不同?
说起“中台”我们必会提起马云的 Supercell 之旅,很多人将一系列的“中台”理念解读为因地制宜的“中国产物”,而且在国外没有“中台”这种叫法,依然叫做“平台化”能力。
阿里的“中台”火了之后,我们突然发现已有无数家“数据中台”落地成果的企业,有些转换完成似乎一瞬间。所以针对我们采访的企业,每一家我们都追问了一个问题:“从之前的大数据平台,转变为建设数据中台,这之间企业在研发或人员上做了哪些改变?”也有企业直接告诉我们,在数据中台概念出现之前,就一直在按这种理念推进,甚至有的已经在此之前完成了相关平台的设计与实践工作,阿里带火中台理念后,于是就用上了这个词。这些企业中,哪些可以被直接划分到“数据中台”行业中?
是否有“公共模块”是衡量企业是否有建立数据中台的其中一个标准。
带火“中台”概念的阿里,在实施数据中台的时候,采用的是“数据中台 + 业务中台“的双中台形式来提供公共服务。在数据中台里将数据业务化,来供业务中台调用,以快速反馈结果。阿里谢纯良在接受 InfoQ 采访时曾表示:“以阿里电商业务为例,用户如果想买一个手机,在下单页面会推荐手机壳、充电宝等其他相关并估计你感兴趣的产品。但值得注意的是,业务中台不知道你喜欢什么,需要根据用户历史记录去分析。如果这个数据量非常庞大,现查是非常慢的,不可能瞬间就查到结果。于是阿里把数据业务化,将用户在历史库里面的一堆数据做成一序列业务模型。这时在业务中台里要查某一用户喜欢什么时,它立马能调出结果并反馈,这个反馈可能是毫秒级。这是数据中台最大的魅力。”
数澜科技创始合伙人 &CDO 付登坡(天湛)表示数据中台是让数据用起来的持续的一套机制,通过建立一套能共享服务的体系,基于数据运营机制形成的闭环路径,经过业务数据化、数据资产化、资产服务化、服务业务化,在有权限管理的情况下开放出去,把可以复用的能力放在一起,用统一标准和口径,向前台业务部门和决策部门以 API 的方式提供数据和计算服务。比如说数澜为这套机制建立的数栖平台就是一套提供公共服务的“模块”,数栖平台的目标定位就是为了让数据能够更方便的使用,再加上一套方法论和运营机制,就是在建立数据中台。“数澜推动实施项目,有很多是尽量去复用已有的这个平台,但是会增加一些东西,比如说数据的管理,标签的管理,服务…”。
数据中台强调的是一种复用能力。很多企业的愿景都是“将数据用起来”,这也是数据平台这些企业基础设施的定位目标,如果再加上一些复用方法论和完善的运营机制,那么可我们就可以认为企业是在建设“数据中台”。使用数据中台的最明显的效果就是提升开发效率,使用封装好的工具平台,降低开发难度,数据分析的速度会大大提高。
数据中台和数据平台的关系
魏文庆给我们的解释说,网易严选的定义是“数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合”,无论是数据中台、业务总台、技术中台,核心都是“标准化”,实现流程都是先“规范化”,然后把规范“产品化工具化”。** 数据中台要通过“数据中台系统”(包含数仓体系、数据服务集和 BI 平台)**进行表达,打破数据管理经验化的思维,用标准化、工具化来做数据。但中台本身是业务相关的,价值是要数据产品对外输出,需要通过数据产品(前台)和数据中台相辅相成进行发展。而数据平台是业务无关的,为数据中台提供存储、计算能力。
以前我们有各种数据治理的概念,达到制定数据政策、促进数据在组织内无障碍共享的目标,还有各种精准营销、风控等企业业务,数据中台与它们在技术上是否有本质上的区别?数澜天湛回答说:“技术上差别不大,主要是业务上前者多数更为垂直,用一部分的数据解决一个部门的业务的某一个痛点。比如说业务中台的目标是理论上是对业务的一些资源共享,那么数据中台就是为了数据资源共享,如果应用过于垂直,可能就达不到中台的一个定义。所以它们最大的差别在于数据打通层面的范围大小,和存在这种数据资源共享的理念。”
数据中台的实现形式
袋鼠云拖雷在回复我们的构建方法问题时说道:“数据中台的构建并不复杂,你可以先构建业务中台,再构建数据中台,也可以直接构建数据中台(类似构建数据仓库)。主要的目的是把企业全域的数据放在一起,统一的加工处理,是一个面向未来的分布式,服务化的架构。”
阿里谢纯良在我们之前的采访中曾说,如果企业没有业务中台、只有数据中台,那它加工的结果大部分是服务于大屏,就搞一个大屏就结束了,那么这个数据中台就跟阿里理解的数据中台差的还远。
我们看一下阿里的中台,包括业务中台,数据中台。最底层是 IaaS+Data,中间是我们说的双中台,PaaS 层。上层是应用,SaaS,号称小前台。
数据中台的层次
一个完整的数据平台至少应该包含三层,即大数据计算平台、数据中台、数据应用前台。
中台的定位是用技术链接计算平台的数据处理能力,用数据链接应用前台的数据应用能力。因此,中台不但要将很复杂的大数据处理技术(流计算、批量计算、实时采集、离线采集、机器学习)封装起来,形成计算平台;同时,进入中台的数据都需按照规范的建模方法论将数据形成主题域模型、形成标签模型或者算法模型。这些数据模型是数据中台的核心资产。接入数据中台的各业务系统通过大数据计算平台这座数据加工厂统一加工后产生数据模型,再将这些数据资产通过可视化的界面管理起来,并使用标准化的数据服务接口对数据应用端提供数据应用服务。
下图为一个比较典型的企业数据平台全景图:
双中台的互相作用
云徙科技在构建数据中台的时候同样建立了双中台架构,云徙科技联合创始人兼首席架构师陈新宇解释了双中台之间如何互相作用的:
数据中台与业务中台并称数字中台。其中,业务中台是负责支撑业务在线,将企业业务系统中通用的业务能力抽象成领域中心,使得这部分能力得到最大化的复用,支撑多端访问、多种类似的场景。数据中台是采用大数据存储和处理技术,对海量数据根据统一标准进行采集、计算、存储、加工处理,形成数据模型和数据资产,并通过数据服务提供给业务方使用。数据中台与业务中台最大的区别是业务中台围绕业务流程,而数据中台一切以数据为主题进行运转,包含数据采集、数据融合、数据建模、数据聚合分析、数据服务、数据资产治理;总之,前者旨在让业务数据化,后者旨在让数据业务化。
一个比较完善的业务中台几乎囊括了企业的核心业务,因此,业务中台是数据中台的数据原材料提供者之一;业务中台的领域中心是天然的主数据中心。因此,业务中台输出的数据更加标准、更加规范,大大降低数据中台的数据清洗工作;同时,数据中台经过数据建模形成的数据能力,必须与业务结合才能发挥其价值,那么业务中台就是让数据能力发挥价值的最合适的载体。通俗的说,如果将企业的信息化系统比喻成一辆自行车,那么业务中台和数据中台就是自行车的两个轮子,两个轮子通过数据这跟“链条”紧密联系,发挥价值,离开哪一个轮子,信息化系统这辆自行车都无法正常行驶。再举一个例子,业务中台是炮火,数据中台是雷达。雷达分析的数据来源是业务中台,分析结果通过业务中台对业务产生反馈,从而采取业务活动,才是一切业务数据化,一切数据业务化。业务中台和数据中台是由于采用的技术手段不同而产生了相对隔离,但从业务的角度,他们是一体的,一起为企业业务服务的。
数澜天湛给我们解释,目前业界现状是双中台,数据在数据中台中变成一种数据服务,在业务中台里去使用,未来可能会模糊化业务中台跟数据中台。因为数据服务的使用会变成一个常态,大家觉得很自然的可以使用数据能力。那时业务中台跟数据中台,可能边界就会模糊,就变成一个中台和一个前台,前台是各种业务的触点,中台是公共能力。
构建数据中台需要的能力
一位前阿里技术专家曾跟我们聊到说,一个淘宝网,可以有一千万家店,企业里有很多的公共的资源可以通过中台共享,但阿里内部以前它叫“企业互联网架构”,但因为中台这个词火了,不得已就用“中台”来代替了。那么数据中台的出现,是不是还是在考验“架构”的设计和系统工程能力?如果一开始,架构做的好,是不是这些问题会随着架构设计而被解决呢?
袋鼠云拖雷回答说:“数据中台是一种理念,一种思维,是架构的升级,是一种面向未来的架构。”
数澜天湛表示:“肯定是一种架构能力。数据中台本身是一套非常复杂的体系,平台工具本身架构设计能力要求也非常高。但也不仅仅是架构,也不仅仅是产品,架构师和产品经理都推动不了,数据中台是一个顶层战略,数据中台涉及业务运转方式的改变,必须有足够的推力才能启动。是企业的一把手工程,是一个企业级战略,需要管理层、业务团队、技术团队、数据团队全部参与进来,目标是实现经营的数据化、精细化,实现企业的数字化转型。数据科学团队是数据中台的深入参与者,但也仅仅是多个角色的其中一个。”
中台建设需要有全员共识,由管理层从上往下推进,由技术和业务人员去执行和落地,是个漫长的过程,所以实施数据中台时,最困难的地方就是需要推动力。比如在中国有各种“数据墙”,大家都觉得数据有价值,也没有发挥这个价值,但是对数据又保护的很紧。为了解决某一块的业务,需要去拿多个部门的数据,有时甚至涉及到几十个部门,最初可能马上得到口头上的应允,但最后真正拿到数据却很困难,这时候推动力决定了整个项目的进展。天湛表示这通常就是数据中台项目实施中涉及到的最大的坑。
实施数据中台,在团队人员建设上,对数据科学平台团队的要求和原来并没有什么不同,袋鼠云拖雷回复我们,“只是体系架构的变化,思维的变化,随着服务化与敏捷模式的普及,创新会变得越来越快“。
避不开的数据中台
就像我们前面所说的,数据中台最重要的是要“帮企业把数据用起来,提升决策水平”,是一种数据思维。那么每一个企业都应该有这种思维,重视信息化技术,让数据发挥价值。不单单是因为业务复杂、数据量大、需要数字化转型的原因,是从业务开始就应该具备的一种理念。袋鼠云拖雷也说:“未来任何企业都是必须的,未来任何一家企业都是数据化的企业,都需要一个数据中台”。
你也许感兴趣的:
- BAT都在悄悄“拆”中台,“碎片化中台” 时代已来
- 【外评】电脑从哪里获取时间?
- 【外评】为什么 Stack Overflow 正在消失?
- Android 全力押注 Rust,Linux 却在原地踏步?谷歌:用 Rust 重写固件太简单了!
- 【外评】哪些开源项目被广泛使用,但仅由少数人维护?
- 【外评】好的重构与不好的重构
- C 语言老将从中作梗,Rust for Linux 项目内讧升级!核心维护者愤然离职:不受尊重、热情被消耗光
- 【外评】代码审查反模式
- 我受够了维护 AI 生成的代码
- 【外评】Linux 桌面市场份额升至 4.45
你对本文的反应是: