百亿级结构化数据的处理流程是怎样的?
上海奥腾科技 2025年10月17日

一.相关名词解释

  为了避免语义歧义,有必要对相关名词含义对齐一下。 看懂这些名词,您大致也能了解每个大模块要做哪些事情。

1.1数据归集相关名词

  以政务大数据中心为例,大数据中心的数据都来自于各委办局业务单位。业务单位的数据获取方式,比如从传感器收集的过程,可以称为“数据采集”。而大数据中心从各委办局获取数据的过程,成为“数据归集”。然后,“大数据中心”将归集的数据为了某个主题域进行了再次合并转换等动作,形成了新的主题数据集。从“数据归集”到主题数据集的形成的整个过程,可以称为“数据集成”。

  以下是相关名词解释:

  数据采集/收集‌:侧重数据从终端或源头获取的初始环节,属于归集的前置步骤。

  数据归集:从多个源头(如业务系统、部门、互联网等)向中心平台或数据库的集中过程,是政府数据平台建设的核心环节‌,属于数据集成的前置环节。例如政务数据需归集至统一平台后再进行治理‌,但该术语更侧重物理层面的集中。数据归集是比较规范的用语。

  数据集成‌:该术语在政府文件中被明确定义为“对来源于不同系统、平台的数据进行整合,建立面向决策主题的数据集合”,其核心是通过标准化流程实现数据互联互通,并保障完整性、一致性‌。例如《政务数据共享条例》中要求通过集成技术实现跨部门数据共享‌,而技术文档也指出集成需“屏蔽异构数据差异,形成统一操作视图”, 数据集成所强调的“逻辑统一性”。

‌  数据接引‌:该表述较少出现在官方文件中,更多见于技术文档描述数据接口对接场景,属于数据集成中的子任务‌。

‌  数据迁移‌:通常指数据存储位置或系统的转移,是数据集成中的技术手段之一,但未体现整体性管理目标‌。

‌  数据汇聚/汇集‌:与“归集”含义相近,但多用于描述数据流动的物理集中。

‌  数据融合‌:强调多源数据深度处理形成新数据集,更像是口头语。

1.2数据编目相关术语

  数据目录编制:数据目录编制的过程。

‌  数据目录‌:记录企业所有数据资产的元数据信息(如数据表、字段、视图等),包含来源、格式、安全性等,提供统一的数据检索和共享功能。 ‌

‌  数据分类‌:将数据按主题、业务需求进行归类管理,与数据目录协同工作以实现高效检索。

‌  数据标签‌:通过数字化手段为数据添加可检索标识,常用于大数据分析中的维度管理。 ‌值得区分的是,有些系统将表字段的注释都称为“数据标签”,这肯定是不正确的。所谓标签,一定是代表业务提炼的意义,能表示实体某一类的属性。尽管标签是可以来自于字段注释,但是有价值的标签一定是通过额外的计算,产生的标签,是原数据中没有直接体现的价值信息。

‌  数据元‌:指不可再分的最小数据单位,与字段注释共同构成数据字典的基础元素。很多政府文件中的“信息项”也是同样的意思。

‌  数据字典‌:系统化记录字段名称、类型、业务含义等信息的工具,与字段注释功能互补。 ‌早期大家都习惯于将业务字段以及字段注释称为数据字典,现在我们建议将数据中台系统或者应用系统自身的代码和注释称为系统字典,与业务相关的数据字段和注释区分开。

  业务代码:指的的是字段的枚举值。如性别,按公安部的规范,值为“0、1、2、3、4、9”。

  ‌元数据‌:描述数据集整体结构的静态信息,与字段注释的动态说明存在关联但作用不同。

  ‌源数据‌:来源的数据,指原始采集的未被大数据中心加工的数据,与数据目录中的元数据存在转化关系。

1.3数据开发相关的名词

  数据治理(Data Governance):指通过建立管理体系来规范企业数据资产管理,涵盖组织架构、制度流程、技术工具等要素,确保数据质量、安全及合规性。 ‌这个概念比较大。

  数据清洗(Data Cleansing):对原始数据进行去噪、去重、修正错误等处理,解决数据冗余、缺失或格式不一致问题,为后续分析提供高质量数据‌。例如,金融领域需清洗交易数据以确保风控准确性‌。

  数据开发(Data Development):通常指使用低代码平台等技术降低编码依赖,通过组件组合和少量定制代码实现应用快速开发。例如Gartner定义的低代码平台通过可视化开发环境降低技术门槛,支持业务与技术协同。通过数据开发软件平台是可以完成数据清洗和数据治理的。

  开发模型:利用低代码数据开发组件,建立的流程编排模型。低代码数据开发组件是通过可视化工具封装底层逻辑,实现快速构建数据流程‌,属于低代码开发模型的典型应用。

  数据挖掘:数据挖掘是从大量数据中提取有价值信息和模式的过程,通常使用机器学习等算法来分析数据‌。其核心任务包括分类、聚类、关联规则发现和异常检测等。

  机器学习:机器学习是使计算机能够从数据中自动学习和改进的算法和统计模型‌。它是数据挖掘的重要技术基础,通过训练模型来预测和分类新数据‌。

  数据建模(Data Modeling):对数据进行结构化处理,通过映射关系建立数据模型,便于后续分析和应用。例如在数据仓库建设中,需通过建模实现数据的有效组织和访问。

  逻辑建模(Logical Modeling):逻辑建模是对业务数据关系的抽象表达,聚焦于实体(如用户、订单)及其关联规则,不涉及具体技术实现。例如,电商系统中会定义“用户-订单-商品”的关联关系,但不会指定数据库类型或索引策略‌。其核心工具包括UML类图等,用于统一业务与技术人员的理解‌。

  物理建模(Physical Modeling)‌:物理建模是将逻辑模型转化为具体技术实现的过程,包括数据库表结构设计(字段类型、长度)、索引优化、存储引擎选择等。例如,在MySQL中为订单表添加主键索引,或根据数据量选择分库分表策略‌。

  逻辑建模和物理建模都是数仓建模的概念,他们的关键差异如下:

  视角‌:逻辑模型面向业务,物理模型面向技术实现。

‌  内容‌:逻辑模型定义“数据是什么”,物理模型定义“数据如何存储”。

‌  工具‌:逻辑模型使用UML,物理模型依赖数据库管理系统(如Oracle、MySQL)。

  应用场景‌:逻辑模型用于需求分析与业务规划‌。物理模型用于数据库部署与性能优化‌。

  指标‌:通常描述客观事实,以可量化的数值形态呈现,如用户活跃率、毛利率等‌。指标包含口径/逻辑、维度和限定词三个部分‌。

‌  标签‌:是人为设定的、对目标对象的高度精炼的特征标识,用于划分不同的实体群组‌。标签可分为事实标签、规则标签和模型标签‌。

  关系图谱:关系图谱(知识图谱)是一种以图结构表示实体及其之间关系的知识库。它通过节点(实体)和边(关系)来组织信息,能够直观地展示复杂的关系网络,常用于语义搜索、推荐系统和智能问答等领域。

  主题库:主题库是指包含了某一特定主题领域内的相关信息资源的集合体‌。它是在基础库的基础上构建而成,对基础库中特定主题领域进行深入挖掘和整理,形成更加精准和深入的信息资源库。对于政务大数据中心而言,国家定义了的四大基础主题库,“人”、“法人”、“空间地理”、“电子证照”。所以,主题库是由大数据中心建设后共享给其他业务部门使用的主题集合。当然,很多大数据中心扩展建设了更多智慧城市相关的主题库。

  专题库:专题库是围绕特定业务领域或场景构建的专业化数据库,其核心在于业务导向性和自主性‌。与基础库和主题库不同,专题库由委办局、街镇等业务单位自行建设,服务于具体业务需求‌。例如环境监测中的“大气污染专题库”或城市治理中的“应急事件专题库”‌。专题库的数据来源既包括单位内部沉淀数据,也可从数据资源局申请基础库或主题库数据作为补充‌。当前,很多委办局、街镇都需要利用大数据中心提供的运算环境和平台工具来建设专题库,这就要求大数据中心的系统要具备为专题库分配独立开发沙盒的能力,而分配开发沙盒的基础需要数据中台有多租户权限隔离的体系。在可信数据空间的概念场景中,可以理解这就是一个全功能型连接器。 第一代以开源软件搭建的数据中台,通常不具备这种能力,或者搭建专题库的技术流程非常繁琐,这也是一些大数据中心不鼓励建设专题库的原因。

  存算分离:存算分离是一种将数据存储与计算资源解耦的架构设计。在这种架构中,存储层和计算层可以独立扩展和优化,提高了资源利用的灵活性和效率。存算分离架构特别适合处理海量数据,能够显著提升资源利用率,这种架构已成为企业级数据中心的新选择,被广泛应用于大数据处理和数据仓库场景。

1.4数据共享相关的名词

  数据资产‌:是指由机构合法拥有或控制的、能够带来经济效益或社会效益的数据资源‌。它需要满足三个核心特征:‌合法性‌(权属清晰)、‌可计量性‌(可量化评估)和‌价值性‌(能直接或间接创造价值)‌。例如,经过脱敏处理的政务数据、城市交通流量分析报告等,若用于优化公共决策或服务,即属于数据资产。

  数据产品:指通过技术手段对原始数据进行加工处理形成的可直接应用的产品或服务,其核心特征包括‌加工性‌(需经过清洗、建模等处理)、‌价值性‌(能解决特定问题或创造效益)和‌可用性‌(具备明确交付形式)。例如,政府将交通流量数据建模后生成的“城市拥堵预测报告”,或企业基于用户行为数据开发的个性化推荐系统,均属于数据产品。

  与数据资产的关系:数据产品是数据资产的重要形态之一,但二者存在差异。

‌  定义范围 ‌   数据产品强调‌功能形态‌,需通过算法、模型或服务终端实现价值‌;数据资产则侧重‌经济属性‌,需满足会计确认条件(如权属清晰、可货币化)。

  示例:某政府开发的“企业信用评估平台”是数据产品,若该平台被确认为无形资产并入表,则同时成为数据资产。

  ‌转化路径‌:数据资源 → 加工为数据产品 → 通过确权、计量后成为数据资产‌。

  在数据资产交易和数据资产入表概念出来之前,我们通常将经过加工的有价值的产物统称为数据资产,后来,随着概念的普及,逐渐将数据产品和数据资产区分开了。表、API、指标、标签、训练数据集、模型、其他数据产品,都可以纳入到数据资产市场被申请共享和变现。

‌  数据申请:主体(如企业、个人)向数据持有方或管理部门提出获取特定数据的请求或流程‌。当前数据申请经过审批后,获取数据的方式主要是API共享调用以及数据订阅推送/下发。

  API共享:指通过开放接口(API)实现数据共享的技术方式,允许不同系统间进行数据交换。例如,第三方开发者可通过API调用公共数据接口获取所需数据。

‌‌  数据订阅推送/下发:指数据供需双方通过协议约定的数据传输方式。例如,企业订阅行业报告后,平台定期推送更新数据;或政府向公众下发开放数据。这种方式考验的是,大数据中心的数据中台有能力兼容订阅方各种异构数据库,以及增量推送的能力,才能快捷地将数据推送过去,并且要能按权限实现敏感数据的动态脱敏。

  动态脱敏:动态脱敏(Dynamic Data Masking, DDM)是一种在数据被访问时实时进行脱敏处理的数据安全技术‌。其核心原理是通过拦截查询请求,在数据返回用户前采用替换、加密、截断或掩码等方式处理敏感字段,不改变原始数据库内容且无需存储脱敏副本‌。该技术基于用户角色权限与业务需求配置实时脱敏规则,适用于生产环境敏感数据保护、多租户系统权限控制及远程办公等场景‌。简单来说,就是让不同权限的人看到不同“版本”的数据,实现“数据可用不可见”‌。

  静态脱敏:静态脱敏是指对存储中的数据进行永久性脱敏处理,常用于测试环境或数据共享。它是在已知数据结构和需要脱敏的内容后,通过脱敏算法对数据进行批量处理,转换成其他数据形式。静态脱敏不需要与应用或数据库建立直接联系,适用于非生产环境,如开发、测试、数据分析等场景。其特点是脱敏后的数据与原始数据在结构和统计特征上保持一致,但脱敏过程是永久性的,无法逆转‌。

二.数据处理流程

  我们多年项目实战的经验,对数据处理流程有一些独特的见解,下图是我们总结出来的基本流程。

14-图片1.png

  上图的流程解释:(1)业务部门发起源端数据编目与归集,数据进入大数据中心ODS ->(2)针对ODS做数据质量检测,符合质量要求的数据进入到DWD->(3)DWD数据进行开发->(4)ADS层资产市场展现要共享的数据产品->共享交换

2.1 基础数据编目和归集,由谁来做?

  建议各源端业务部门完成各自的数据编目,以及数据归集到前置机,然后大数据中心从前置机同步数据到ODS。见《为什么要做源端数据编目》、《面对数百套业务系统,前置机就是沟通桥梁》。

2.2 数据质检,在哪个环节做? 如何形成闭环?

  建议从ODS数据进入DWD数仓之前,先要经过质检模块进行筛选,将干净的数据进入数仓,将脏数据筛选到脏数据进行清洗,清洗以后再次进入到数仓中。同时将脏数据和数据质检报告返回给各源业务部门。   由于数据开发过程中也可能产生不规范的数据,因而,尽管对DWD、ADS数据依然可以进行质检。

2.3 主题库建设要不要按照数仓建模理论做?

  需要的。主题库就是主题域中的一个主题,它不能只是简单地把数据做一下分类,而是需要按下图方式构建和持续生产。

14-2图片1.png

2.4 实时数据开发与定时数据开发为什么是两条链路?

  定时数据开发的数据归集方式主要包含

  (1)库表数据同步,全量同步、增量同步、差异更新同步。

  (2)API对接同步,源端提供API接口,大数据中心生成API进行对接。

  (3)文件导入,入表。

  (4)数据填报,通过自定义表单发布后,供填写数据后入表。

  定时开发也称为离线开发,数据归集主要通过任务调度来实现,在单表数据量较大的情况下,全量同步一般都是小时为单位,如果数据量不大,增量和差异更新方式,是可以小到秒级的。

  实时数据开发的数据归集主要采用CDC方式,可以来自数据库,也可以来自消息队列(如:Kafka)。数据延迟为毫秒级。尽管实时数据开发过程依然可以做数据转换和治理,但是从时延的效果出发,两条链路还是希望分开为好,满足不同场景的需求。

2.5 离线开发链路的性能怎样提升?

  离线开发链路的性能提升主要是三个方面

  (1)降低数据归集的时延,比如采用增量同步和差异更新同步。

  (2)充分利用系统提供的开发组件,减少人工编写SQL语句,因为SQL语句依赖的是数据库的性能,而组件调用的是并行计算引擎,存算分离的,性能当然快。

  (3)任务编排,卓越的性能肯定离不开高效的分布式任务调度引擎,让任务调度不要出现堵塞。但是任务编排也非常重要,比如A和B任务如果有先后顺序和依赖关系,可以编排一个作业流,A任务执行完后立即执行B任务。而不是让A和B在各自的任务周期里执行,这样减少了B任务的等待时间。

  当然还有一点是非常重要的,就是数据中台要支持和兼容数据库的事务一致性,否则即使在技术层面优化了性能,数据的准确性和完整性仍然可能受到影响。在并行计算和分布式环境下,如果处理不当会出现部分任务失败、数据丢失或数据不一致的情况,影响最终的数据结果和分析的可靠性。

  因此,提升离线开发链路的性能不仅仅是通过优化计算引擎、任务编排和数据同步等技术手段,还要确保整个数据流程在执行过程中具备事务性保障,使得每个数据操作都能保证原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability)(ACID特性),这样才能在提升效率的同时,确保系统能够稳定地为业务提供高质量的数据支持。值得注意的是,与MPP数据库不同的是,Hive 从0.14 版本开始,引入了对ACID事务的一些支持,但要启用ACID事务支持,表必须是事务表(需要指定TBLPROPERTIES('transactional'='true')),而且启用ACID支持会带来额外的性能开销。而传统的Hive表(如TextFile)不支持ACID事务。

2.6 AI问答式数据开发如何实现?

  数据开发组件主要为了降低使用门槛,优化数据开发性能而设计。

  由于系统提供了丰富的开发组件和函数,所以,AI在理解了用户意图后,就可以通过智能体调用系统的画布和开发组件,自动构建数据开发模型。

  1)流程描述

  (1)提问与意图识别

  用户首先通过自然语言向AI提问,例如:“我想从MySQL数据库中获取实时数据并进行处理。”

  AI通过自然语言处理技术,理解用户的提问意图,并识别出关键任务(如:数据源、数据类型、处理目标等)。

  (2)AI进一步提问与确认

  如果AI未能从提问中完全理解需求或存在多种解读的可能性,AI会提出澄清性问题。例如:“您是想获取MySQL数据库中的所有表数据,还是只提取特定表的数据?”

  用户根据提示进一步明确需求,并回答AI提出的问题。AI通过对话逐步建立完整的开发任务。

  (3)生成开发模型与可视化展示

  在获取足够的需求信息后,AI会调用我们的数据开发画布工具,生成数据处理流程图。这个流程图会包括涉及的 数据源组件、数据转换操作、数据输出组件等。用户可以在画布中看到整个数据开发流程的可视化表示。

  (4)预览与定制执行

  用户可以在画布上预览生成的模型,检查数据处理流程是否符合预期。例如,预览将 Kafka输入 数据流经过 数据清洗、转换 后输出到 Starrocks 的流程。

  如果预览结果正确,用户可以选择定制任务执行,系统会根据画布上的设计自动生成并执行数据任务。

  (5)任务执行与监控

  当用户确认任务无误后,可以直接启动任务,系统会根据定义好的组件自动执行任务。任务执行过程中,AI系统会实时反馈任务状态,包括是否成功、是否出现异常等,确保任务按预期完成。

  2)举例

  假设用户希望从 MySQL 中提取数据,并通过一些转换操作,最后将结果输出到 Kafka。

  用户提问:“我需要从MySQL数据库中提取数据,做一些转换,然后将结果输出到Kafka。”

  AI识别出用户希望使用的数据源是MySQL,并询问:“您需要提取所有表的数据还是某些特定表?”

  用户回应:“只需要 orders 表的数据。”

  AI确认后继续:“您是否需要进行任何数据转换或清洗?”

  用户回答:“是的,去除重复记录并将价格字段转换为整数。”

  生成模型与可视化

  AI根据用户的需求生成以下流程

  MySQLCDC 输入组件(用于提取orders表的数据)

  数据去重 转换组件(去除重复记录)

  字段转换(将价格字段转换为整数)

  Kafka输出 组件(将处理后的数据推送到 Kafka)

  用户可以在画布上看到整个流程的可视化展示,检查每一步是否符合需求。

  定制与执行

  用户确认流程无误后,可以定制任务执行。系统自动生成并启动任务,定期从 MySQL 拉取数据,经过去重和转换后,推送到Kafka中。

  在任务执行过程中,用户可以查看实时日志和任务状态,确保数据流畅处理。

  3)好处

  简化开发过程

  通过AI问答式交互,用户无需掌握复杂的编程技术,也能通过自然语言提出自己的需求。AI会自动转换需求为具体的开发步骤,降低了技术门槛,帮助更多非技术人员参与数据开发。

  自动化与智能化

  AI不仅理解用户的需求,还能通过对话主动提出疑问,帮助用户理清复杂的需求,避免错误和遗漏。同时,自动生成开发模型和数据流程,避免了人工设计的繁琐和潜在的逻辑错误。

  可视化与高效协作

  可视化的画布让开发过程更加直观,用户可以清晰地看到每个步骤,快速调整数据处理流程,提高工作效率。在团队协作中,成员可以共同查看和修改开发任务,保证数据开发任务的透明度和一致性。

  灵活定制与执行

  用户可以随时调整数据流程中的任意步骤,AI支持灵活定制并执行任务。无论是修改数据源、转换规则还是输出目标,都可以快速响应需求变化。

  提升数据质量与精确性

  自动化的数据处理流程减少了人工干预,避免了因人为操作导致的错误和不一致,确保了数据的质量和准确性。通过智能转换和清洗操作,数据处理的精度得到了提高。

  总之,通过AI问答式的数据开发功能,我们不仅简化了数据开发流程,还提高了数据处理的灵活性、可视化程度和自动化水平,让更多的人员能参与到数据开发中来,极大地提升了工作效率和数据质量。

14-3图片1.png

2.7 数据资产价值评估和管理权限是怎样的?

  1)什么是数据资产?

  资产化肯定有一个简单而流程,数据资产是确定可以共享出去的,有价值的信息,这个数据资源是不同的。确切的说来,随着数据资产入表和数据资产交易的出现,大数据中心共享出去的应该是数据产品。因为数据资产是可以评估价值的。 

  数据资产的评估要引入财务的概念,在不产生交易和购买的情况下,比如政务大数据的数据要素流通,可以从如下角度显示数据价值。 

14-4图片1.png

  2)可以申请哪些资产?

  表、API、标签、指标、多模态非结构化数据和训练集等等,要根据具体的环境来决定。 申请获取数据的方式,我们认为有:1)浏览数据,也就是到系统中来查看数据;2)API调用数据;3)订阅推动\下发到业务库中。

  3)申请者的资产权限包括哪些?

  我创建的资产、我申请的资产、被授权的资产。我创建的资产是可以授权给他人浏览的,并且授权过程有详细的记录。

2.8 数据探查包含哪些内容?

  很多数据中台提供了一个操作者平台,需要操作者熟知理论、技术精湛才能玩得转。那么我们就思考一个问题,平台能否简化技术要求,让系统自动能发现一些问题,主动提示和告警。

  数据探查从如下几个方面自动开展。

14-5图片1.png

2.9 系统自动告警需不需要?

  数据中台(Data Middle Platform)作为一个集成和共享数据的平台,通常会有一系列的监控和自动告警机制来确保数据的质量、流通和系统的稳定性。自动告警可以帮助企业及时发现问题并作出响应,避免数据问题对业务运营造成影响。以下是一些常见的情况,数据中台通常会设置自动告警:

  (1) 数据质量问题

  缺失数据(Data Missing):如果某个数据源或表中的数据缺失,特别是缺少关键信息或重要时间段的数据,系统会发出告警。

  数据重复(Data Duplication):当数据出现重复记录时,可能会导致分析结果偏差,数据中台会设置告警来发现和避免这种情况。

  数据格式错误(Data Format Error):数据不符合预期的格式或数据类型错误(例如,文本字段中包含数字),这种情况通常会引发数据处理失败。

  数据异常值(Anomaly Detection):检测到超出合理范围的数值,如温度、销售额等指标的异常波动。通过设置阈值,系统能自动识别并报警。

  (2) 数据同步和传输问题

  ETL任务失败(ETL Failure):数据中台一般会通过ETL(提取、转换、加载)任务定期处理数据,如果某个ETL任务失败(如连接失败、处理超时等),会触发告警。

  数据延迟(Data Latency):如果数据的实时同步或批量同步发生延迟,特别是在要求快速响应的业务场景下,数据中台会检测到数据处理的延迟,并发出告警。

  数据源连接问题(Data Source Connection Failure):如果某个数据源(如数据库、API等)无法正常连接或出现故障,系统会自动发出告警,提醒运维人员检查。

  (3)系统性能问题

  存储空间不足(Storage Space Warning):如果数据存储系统的空间即将耗尽,或接近预定的容量阈值,数据中台会进行告警。

  数据库性能下降(Database Performance Degradation):数据库查询响应时间过长、负载过高等性能问题通常会引起系统告警,特别是在大数据量的查询时。

  服务故障或系统崩溃(Service Failure/System Crash):如果某个关键服务或组件宕机,数据中台会触发自动告警,提醒技术团队及时修复。

  (4)数据权限问题

  权限变更(Unauthorized Permission Changes):如果有未经授权的用户修改了数据访问权限,或数据访问权限发生了异常变动,系统会发送告警。

  数据泄露(Data Leakage):如果敏感数据(如个人信息、财务数据等)被意外或恶意访问,数据中台会通过监控数据访问日志,触发告警。

  (5)数据一致性问题

  数据不一致(Data Inconsistency):如果数据在多个系统或表之间发生不一致,数据中台会发出告警。例如,某些表的数据在同步后不一致,可能会影响后续分析或报告的准确性。

  数据校验失败(Data Validation Failures):如果数据在导入或同步时没有通过预设的校验规则(如数据类型、范围等),会触发告警。

  (6)业务指标异常

  业务KPI异常(Business KPI Anomaly):对于数据中台来说,常常需要监控关键的业务指标(如销售额、用户活跃度等),当这些指标出现异常波动时,会自动发出告警。

  流量异常(Traffic Anomaly):例如,用户访问量、请求数等指标发生异常波动时,数据中台可以自动检测到这种变化,进而发出告警。

  (7)定时任务失败

  调度任务失败(Scheduled Task Failure):如果数据中台的定时任务(例如,报告生成、数据清理等)未能按时执行,系统会自动发出告警。

  (8)数据版本问题

  数据版本不一致(Data Version Inconsistency):如果数据源的版本或数据模型的版本发生变化,但未进行适当的同步或升级,可能会影响数据处理和分析,系统会发出告警。

  (9)安全性问题

  非法访问(Unauthorized Access):如果系统检测到异常的登录尝试或不符合安全策略的操作,尤其是敏感数据或控制台的访问,会触发安全告警。

  恶意操作(Malicious Activity):系统会检测到异常的用户行为模式(如频繁查询、大量修改数据),如果判定为恶意行为,则会触发告警。

  总结

  数据中台的自动告警机制通常会涉及数据质量、系统性能、权限安全、数据一致性等多个方面。告警不仅可以帮助监控数据流转和处理的稳定性,还能实时响应潜在的问题,及时采取修复措施,保障业务的正常运行。因此,设计合理的告警规则和监控机制对数据中台的稳定性和可靠性至关重要。

  告警的方式包括

  目前我们系统里有个菜单“消息管理”,就是用于配置及时告警消息的。

  系统能支持的消息接受方式:

  IM站内消息,就是系统页面的铃铛告警。

  短信

  邮箱

  企业微信群

  也可以对接钉钉等其他平台。

2.10 分类分级是外挂还是内嵌?

  内嵌的好处:

  内嵌到数据中台的分类分级系统,能直接与数据流转、存储等环节打通,做到 实时监控 和 数据访问控制。例如,数据在传输过程中,数据的敏感信息会自动加密或隔离,访问者只能访问与自己权限匹配的数据。

  如果数据中台同时承担了多个企业层面的数据操作和管理任务(如数据清理、分析和挖掘),内嵌分类分级模块可以确保所有操作都符合 合规要求(如GDPR、HIPAA等),避免因业务操作不当而带来法律和监管风险。我们看到很多大数据项目,在数据资产浏览样例数据的时候,由于没有与分类分级内嵌使用,不能结合用户权限实现样例数据的动态脱敏,而是需要人工准备一组样例数据,但是,数据资产的表很可能会变化,很可能增加了一个字段,面对众多的资产表,人工维护样例数据也是个不小的工作量。

  外挂的好处:

  外部的分类分级系统可以专注于数据安全性和合规性,并提供更加精细化的控制措施。例如,敏感数据的访问控制、加密、数据脱敏等功能,可以由专门的外挂模块来处理。

  如果企业需要为不同国家或地区的法律法规定制不同的数据安全措施,外挂模块可以更方便地进行 定制化开发,灵活应对不同的合规性需求。

  总结:

  内嵌设计适合那些对数据管控、合规性要求高的大型企业,特别是当数据中台需要全面管理数据的生命周期时,将分类分级功能集成到平台内部更能提供统一、高效、稳定的管理。 外挂设计则适合那些希望保持灵活性、易于扩展更多平台的企业,尤其是在数据管理和合规性要求相对独立或复杂的情况下,外部模块可以更加专注于数据的安全性和合规性,提供更多的数据安全功能。

2.11 API访问权限如何与分类分级关联?

  为了实现将API访问权限与分类分级关联的功能,我们采取了以下几个步骤:

  实现过程

  设定用户权限和安全级别

  我们首先为每个用户分配一个安全级别,比如 1 级到 5 级不等,依据用户的角色和职责来定义。比如,管理员可能是 5 级用户,而普通员工可能是 2 级或 3 级用户。

  对数据进行分类分级

  我们将数据按照敏感性分级,例如 1 级数据是公开的,5 级数据是高度敏感的。每条数据都会有一个安全级别。

  权限与数据级别匹配

  在实现时,我们通过一个系统映射,确保用户只能访问与其权限相匹配的安全级别数据。例如,3 级用户只能访问 3 级及以下的数据。如果他尝试访问 4 级或更高的数据,系统会自动对数据进行脱敏处理。

  脱敏处理

  对于权限不足的用户,当他们请求访问高于自己权限级别的数据时,系统会自动进行脱敏。比如,将身份证号、电话号码等敏感信息替换为部分隐藏的字符,或将详细内容部分模糊掉。

  好处

  提升数据安全性

  我们能够确保只有授权用户可以访问敏感数据。脱敏处理自动进行,防止了用户在没有权限的情况下接触到完整的敏感信息,大大减少了泄露的风险。

  符合合规要求

  我们的做法符合数据隐私保护法规,如GDPR、CCPA等,确保数据处理符合相关法律要求。这让我们在处理敏感数据时更加放心,避免法律风险。

  自动化管理

  权限与数据安全级别的自动匹配简化了管理流程。用户权限变化时,系统自动调整其访问权限,而无需人工干预。这大大提高了效率,减少了出错的可能性。

  提高用户体验

  用户只会看到与自己权限匹配的数据,操作简便,不需要额外的权限请求或审批流程,提升了工作效率。

  灵活的权限扩展

  我们可以轻松调整和扩展用户权限,随着公司规模增长,我们可以在不影响现有系统的情况下,快速地为新用户或新角色配置访问权限,保证系统的灵活性和可扩展性。

  总的来说,这种方法帮助我们在确保数据安全的同时,提高了管理效率和用户体验,符合行业的合规性要求,是一种非常有效的访问控制和数据保护策略。

2.12 数据标准什么时候用

  很多单位确实建立了数据标准体系(包括数据元标准、命名规范、代码标准等),也建立了标准发布、撤销以及版本控制审核流程,但在实际数据处理环节中,标准往往 “建而不用”。 数据标准在数据处理流程中如何引用和使用?

  1)数据标准可以关联什么?

  数据中台在开始处理数据前,除了定义行业数据元规范、业务代码规范外,是可以将行业质量管理规则(比如字段质量要求)、行业分类分级规范、行业脱敏标准预先录入的。那么在建立数据元标准的时候,就可以将数据元与这些内容预选绑定。

14-6图片1.png

  通过这种多维绑定机制,数据标准就能转化为可直接被数据资产“引用”的资源,而不只是“人工对照表”。

  2)数据标准能怎么用?

  数据标准不该只是摆在文档或管理系统里的“说明书”,它更应该是贯穿数据生命周期的控制元数据。

  核心思想是:数据标准=一类“可引用的配置对象”,能够被各类数据资产(表、字段、模型、接口、指标等)引用,用以自动化地约束、检查、继承和生成配置。

  (1)在数据归集过程中,目标:保证源数据在进入中台时即符合标准。

  字段绑定标准

  当配置归集任务时(如从源系统抽取至ODS层),目的表字段可直接引用数据元标准。

  字段命名、数据类型、注释自动继承标准;

  质量规则自动生效(如空值率≤1%);

  分类分级与脱敏标识自动生成。

  标准化检验

  系统可在数据接入前自动校验字段结构与标准匹配情况(如发现“电话号”字段类型不符标准则报错)。确保数据在进入中台前即可形成统一结构、质量与安全语义。

  (2)数据开发(建模)阶段,目标: 输出表结构与逻辑标准一致,提升可复用性与质量一致性。

  标准引用生成

  在建模时,开发人员可直接在字段配置中引用“标准数据元”,系统自动补齐:

  字段中文名、英文名;

  数据类型;

  注释说明;

  质量与脱敏策略;

  分类分级标签。

  标准化派生

  输出表字段继承自上游表字段的标准定义,实现字段血缘中的标准追踪。开发者不需重复填写元数据描述,也避免了“相同字段多种写法”的混乱。

  (3)数据质检阶段,目标: 检查数据是否符合标准的定义与质量要求。

  自动比对标准

  在质检任务中引用标准质量规则模板,系统自动生成字段检测规则;

  字段一致性校验

  检查字段的类型、长度、精度是否与标准一致;

  这样通过标准关联了“质检模板库”,尤其是新创建的表的质检,就不再依赖人工配置。

  (4)分类分级与脱敏审查

  验证字段是否按照标准分级、关联脱敏规则。脱敏规则是与使用者身份级别绑定的,不同的权限等级采用的脱敏规则可能不同。

  (5)数据服务与API阶段,目标: 确保标准在数据共享层延续。

  确保出参字段命名与注释符合标准;

  自动关联字段脱敏规则;

  输出接口文档与数据标准对应起来;

  3)让标准“活起来”的关键机制

  标准与元数据融合:

  数据标准系统与元数据管理平台对接,支持字段、模型、接口层级的标准引用。

  规则引擎化:

  将标准内容(质量、脱敏、分级等)转化为可执行规则,挂载在数据处理链路上。

  标准变更自动同步:

  当标准更新时,自动识别被引用的对象范围,触发通知或同步变更。

  引用可视化追踪:

  支持查看每个数据元标准被哪些表、字段、API使用,实现标准影响面评估。

  开发全程标准提示:

  在数据建模或API配置界面中提示可引用的标准,提高开发一致性。

  手机端请关注公众号:数据集成服务

  本文讲解请参加:

  https://www.bilibili.com/video/BV1LKSTBKEAi/?spm_id_from=333.1387.upload.video_card.click&vd_source=dc423b018f373e70f93d62ac6bfb308d

  加入讨论群:

加入群聊立牌