数据中台概念再讨论
上海奥腾科技 2024年12月11日 11:15

一、现状

  业界在大数据平台建设方面,常有痛点如下:

1,多个厂家产品堆砌的平台,对接复杂

  大数据平台的建设刻意把数据处理流程分开成多个子模块,要用多个厂家的产品,处理不同的环节,比如“数据资产管理子系统”、“数据治理子系统”、“数据分析子系统”、“数据共享交换子系统”。各厂家间衔接困难,没有统一的审批流程体系,数据处理流程各自为阵,建设周期更长,沟通和运维成本更高。

2,兼容性问题

  在大数据资源管理局的建设场景中,经常要对接各个委办局的数据库进行数据抽取,常用的数据库如oracle、mysql、postgres、mongodb、sqlserver、db2、kafka、openGauss、达梦、人大金仓等等10多种数据库100多个小版本,很多产品不能兼容和适配这些数据库的驱动程序,以及数据库之间的字段映射,从而导致数据归集困难,也使得数据库字段类型转换失败。很多项目中数据库字段类型都直接转成了文本格式,这样武断而不尊重原有数据格式的方式,可能导致原有的计算函数不兼容。

3,用开源产品包装,难以驾驭

  数据处理是一个技术和业务相结合的复杂的过程。很多开源的模块只适合某些特定场景,因而有很多的局限性。当发生系统故障、兼容性问题以及功能缺失的时候,往往因为难以驾驭开源代码而导致束手无策。

二、数据中台思想再讨论

  很多厂家或者建设者认为,数据中台并不是一个具体的软件,而是一种技术架构和运营模式,更多是理念和实践的结合。由于Hadoop生态圈非常活跃,因而,我们看到业界大量的案例都是安装hadoop然后,再集成了一些开源框架组件,就形成了“数据中台”。随着用户对实用性、数据处理性能、功能需求提高以及迫切需要增加一些AI的能力,用户发现,用一系列软件“拼凑”的数据中台存在迭代困难、性能慢、自动化程度低、人力成本居高不下等问题。

  所以,业界禁不住提问:大家是如何理解数据中台的?“大数据=hadoop”吗?

  业界都认同,数据中台是企业数据管理和应用的核心架构,旨在通过统一的数据平台整合、治理和共享数据,提升数据利用效率,支持业务创新和决策。其核心要素包括:

  • 数据整合:将分散在不同系统中的数据集中管理。
  • 数据治理:确保数据的质量、安全性和合规性。
  • 数据服务:通过API等方式提供数据服务,支持业务应用。
  • 数据产品:基于数据中台开发智能应用,如推荐系统和风控模型。

  通俗易懂的结论:

  1. 数据中台是什么?

  想象企业的数据就像水和电,过去只是各部门自己用自己的井抽水,自己发电,效率低且浪费资源。而“数据中台”就像一个集中的供水/供电系统,让企业各部门都能快速共享和复用数据,也不用重复做同样的事。

  1. 大数据是不是Hadoop?

  大数据的概念远比Hadoop大,Hadoop是最早用来处理“大数据”的工具之一。就像汽车不仅有燃油车,还有电动车。如今的大数据技术工具更多,Hadoop并不是唯一的选择,比如很流行的Spark、Flink、云服务等都是处理大数据的技术。

  那么,对最终用户而言,是用开源搭建的数据中台更实用,还是产品化的数据中台更合乎需求呢?

  先简单看一下开源搭建的数据中台,如下两幅图都是随意从网上搜索而来: 开源中台1.png

图1-用开源组件搭建的数据中台架构

开源中台2.png

图2-数据中台技术选型

  上面两幅架构图,可以看出都需要多个不同厂家或组织的软件工具来实现各模块功能,所以对使用者的技能要求很高,对整体数据处理流程也需要更深入的理解和代码编写,运维的模块比较多,维护复杂。对政府单位和大多数企业而言,离业务需求是有相当的距离的,比如缺少流程审批体系,缺少业务规则,缺少自始至终的权限管控与数据安全体系等等。原本认为使用这些开源软件搭建的数据中台成本更低、创新性更强,结果业界大量的案例证明,不仅项目建设成本高,而且,人力成本、管理成本、风险应对成本、优化扩展成本也是不低。Gartner并没有正式宣布“数据中台已死”,但Gartner可能认为在某些情况下传统的数据中台的概念已经过时或者需要与其他技术结合以更好地满足需求。

  数据中台当然不会死,毕竟数据中台是数据应用和走向AI发展方向的基础,但是传统的数据中台理念需要升级。

  奥腾科技基于多年大数据项目实战经验,从用户体验角度出发,数据中台需要连贯地处理从数据集成、数据治理、数仓建模、安全分类分级到数据共享服务整个链路,要减轻人们数据处理的负担,实现跨部门的协作,具备系统权限和数据权限管控,自定义数据共享审批流程,促进数据要素流通,并完成数据价值监管。因而,数据中台可以是一个完整的数据处理软件,能兼容结构化、半结构化、非结构化数据处理。在此基础上,一些复杂的数据处理如非结构化OCR识别和语音识别、机器学习算法、人工智能技术的使用,都可以成为数据中台的一个组件或者一部分功能,最终目的是为业务应用提供准确便捷的数据产品支持。以数据中台为基础,系统将迭代升级为Gartner所说的数智基建平台。

  所以数据中台一定能自动化处理数据,具有连贯性和包容性,它不依赖于哪中特定的数据库,而是兼容各种数据库。数据中台不等于数据仓库,也不等于数据底座,它是不断发展的数据处理软件。从数据中台到数智基建的发展过程,可能会经历自动化、平权化、智能化、自治化的过程:

1、自动化:是指通过技术手段使数据处理流程、数据获取、数据存储和分析过程能够自动进行,以减少人工操作,提高效率和准确性。 实现途径举例:

  • 自动化数据编目标注,自动编目统计与异常告警。
  • ETL(Extract, Transform, Load)工具的使用,通过自动抽取、转换和加载数据,实现数据流的自动化。
  • 数据处理流水线,利用脚本和自动化工具定期或实时地清洗、整理、开发并更新数据。
  • 自动API生成与监控管理,实现不同系统之间数据的自动互通和更新。
  • 自动化数据探测,自动化数据分类分级,并与权限绑定实现API服务的动态脱敏。
  • 自动化生成指标、标签、关系图谱等面向业务的数据产品。

2、平权化:是在降低复杂度,在组织内部实现数据访问和使用的广泛授权,使更多的员工可以便捷地获取需要的数据,提升业务部门的数据利用能力。 实现途径举例:

  • 数据权限管理系统,细粒度地控制数据的访问权和使用权,同时保障数据安全。
  • 通过自助式工具如:自助数据编目、自助数据归集、自助数据资产申请、自助专题库建设、自助业务建模及BI工具。数据需求方和责任方可以自行进行数据预处理和分析,而不需完全依赖大数据中心技术部门。
  • 数据民主化策略,使数据的使用不仅仅是技术部门的职能,而成为全员共享的资源。

奥腾中台模块.png

图3-奥腾数据中台软件功能模块

3、智能化:是指在数据处理中引入更高级的分析技术和人工智能手段,以增强数据的洞察力和分析深度,实现更深层次的价值发现。 实现途径举例:

  • 机器学习和人工智能的引入,可以对海量的数据进行复杂的模式识别和预测分析。
  • 自然语言处理(NLP),使得数据查询和分析可以通过自然语言接口进行,让数据服务更具可用性。
  • 智能算法,用于实时数据分析和自动化决策支持。

4、自治化:是指数据系统能够实现自我调节和优化,通过自主学习和自适应技术,实现无需人力干预的优化和管理。 实现途径举例:

  • 自适应学习系统,能够基于经验和新数据自动调整分析模型和策略。
  • 自治数据管理平台,在数据治理、数据质量监控等方面实现自动监测和调整。
  • 反馈回路机制,系统能够根据运行结果进行自我评估和持续优化。

总结:数据中台不是要弱化而是需要思维升级,要紧跟时代进步,吸收先进的开源软件思想,不断创新升级,成为面向平民的自动化数据处理的智能化平台。