一、现状
《中华人民共和国数据安全法》明确规定,国家需要建立数据分类分级保护制度。数字部门在发展建设过程中,一方面由于业务需要,采集、存储了海量的公民个人信息,另一方面为了满足国家治理需要,数字部门也会接触井存储一部分关于国家安全、重要民生、重大公共利益等重要数据,因而非常担心重要数据泄露。尽管采取了系统安全防护、分类分级系统建设、敏感数据存储加密、红区蓝区设定等保密措施,但是依然出现敏感数据泄露的情况。这是为什么呢?
本文不讨论系统安全防护缺失、黑客攻击、安全漏洞、人为恶意数据泄密等常规安全隐患,我们从大数据中心分类分级系统建设出发,反思如下问题:
1)分类分级系统是否及时发现了敏感数据?
2)分类分级是为了看,还是为了用?
很多大数据中心分类分级采用的是第三方安全产品,带外实现分类分级的打标。这样的架构,主要是大家都认为分类分级是安全部门的工作,而不是数据管理部门的工作。这可能导致如下问题:
1) 分类分级系统带外定期扫描,只能采用静态定期脱敏,导致新的数据没有脱敏。
2) 页面浏览数据未调用分类分级系统,导致敏感数据未脱敏展现。易出现泄露。
3)元数据管理系统与分类分级系统未关联,因而在很多数据处理环节上,不能将敏感数据分开对待。
4)很多API服务系统与分类分级系统没有对接,如果是人工定制的API接口,更容易忽略与分类分级系统的对接。导致敏感数据泄露。

二、基于带外打标模式的风险分析
在数字化转型加速的背景下,全球大数据中心日均处理数据量已突破千万TB量级。为应对《数据安全法》《个人信息保护法》等合规要求,超过76%的企业选择部署第三方安全产品进行数据分类分级。但行业普遍采用的"带外打标"架构,将分类分级系统独立部署于数据管理流程之外,暴露出严重的技术断层与组织协同缺陷。因而我们基于对金融、政务等行业的实践观察,深度剖析该模式下的系统性风险。
当前主流的带外分类分级架构,通常采用独立部署的安全探针周期性扫描数据库、文件服务器等存储系统,通过正则匹配、关键词识别等方式进行数据打标。这种"事后补丁"式设计源于企业组织架构的深层矛盾:数据管理部门聚焦于数据资产运营,而安全部门片面追求合规达标,两者在数据全生命周期管理中形成责任真空地带。带外打标架构的固有缺陷带来的缺陷如下:
1、 静态脱敏机制的时效性缺陷
(1)扫描周期与数据动态性的矛盾
典型带外系统以T+1或周级频率执行扫描,无法覆盖实时数据管道(如Kafka流数据)。某证券公司的用户行为分析系统即因此产生监管事故——实时采集的客户持仓数据在入湖后12小时才被分类系统识别,期间分析师已通过BI工具导出未脱敏数据。
(2)动态数据场景的防护失效
在机器学习场景中,原始数据经特征工程处理后可能产生新的敏感字段(如将经纬度转换为居住区域分级)。带外系统因缺乏对数据处理逻辑的理解,难以动态调整分类策略,导致某医疗AI公司患者轨迹数据二次泄露。
2、 数据展示层的防护盲区
(1)前端页面的元数据割裂
主流分类分级系统与前端框架(React/Vue)缺乏深度集成。某政务服务平台曾发生公民身份证号泄露事件:后端数据库虽已标记为PII,但前端开发人员直接调用未经脱敏处理的API接口,分类标签未传递至展现层。
(2)移动端的数据流失控
在混合开发(Hybrid App)场景下,H5页面与原生容器的数据交互通道往往绕过企业安全沙箱。某银行App因此导致缓存数据泄露——用户浏览的贷款记录虽在服务端加密,但本地SQLite中明文存储且未关联分类标签。
3、元数据治理的协同障碍
(1)数据血缘断链风险
在数据湖架构中,ETL作业产生的衍生表与原表分类标签未建立继承关系。某电商平台的典型案例显示:订单明细表被正确标记为L3级,但其聚合生成的区域销售统计表因缺乏元数据关联,被误判为公开数据导出至第三方。
(2)数据目录的映射失真
独立建设的分类分级系统与元数据管理系统(如Apache Atlas)采用不同本体模型。某汽车厂商的数据治理平台中,发动机参数在元数据系统定义为"技术数据",而在分类系统标记为"商业秘密",导致自动化脱敏规则冲突。
4、 API生态的安全黑洞
(1)长尾API的监管缺失
在企业和大型组织中,通常存在少数高使用量的主流 API 和大量低使用频率的 API,这些低使用频率的 API 就是所谓的 "长尾 API"。
据Gartner统计,企业平均存在34%的"影子API"未被纳入管理。由于静态脱敏是定期执行,这导致新鲜数据来不及打标。为了保证最新鲜的数据能及时提供服务,开发人员很可能将尚未打标的敏感字段,直接暴露给用户。某零售企业的促销系统快速上线时,开发人员为赶工期直接开放了包含会员手机号的未打标API,三个月后因爬虫攻击导致百万级数据泄露。
(2)协议转换中的标签丢失
在SOAP转RESTful、GraphQL等协议转换场景下,传统网关无法保持分类标签的跨协议传递。某航空公司的机票查询接口因此发生数据泄露——SOAP服务返回的脱敏数据经转换后,RESTful响应中竟包含完整信用卡CVV码。
如果大数据中心的API依靠开发人员编写,而不是采用统一的API生成工具,这种协议转换带来的信息泄露,就难以避免。
三、体系化改进框架
上海奥腾科技采用深度集成的架构设计,将数据分类分级能力内嵌至数据中台核心层,构建起三位一体的防护机制:首先基于元数据管理系统实施标准化打标,通过预置规则引擎与机器学习模型实现结构化数据的自动化标注;其次建立动态权限映射模型,将用户角色属性(RBAC)与数据敏感等级(如:L1-L4)进行多维度关联;最终在数据消费层(含可视化浏览界面与API服务网关)实施实时策略解析,依据主体权限等级和客体分类标签执行差异化脱敏处理,具体脱敏算法(如掩码、泛化、加密等)可通过策略库进行灵活配置。针对增量数据资产,规划部署智能发现引擎,通过数据血缘追溯与模式识别技术实现新入湖表的自动扫描标注,同时保留人工标注通道以处理复杂语义场景(如业务特定字段"工资"的语义歧义消解),形成"机器为主、人机协同"的混合治理范式。该架构符合Gartner倡导的Data-Centric Security架构原则,在保障实时性的同时兼顾治理灵活性。
(一)技术架构升级
1、嵌入式分类分级引擎
在数据处理关键节点(如Flink实时计算引擎、敏感数据自动发现引擎)内置轻量化分类模块,实现"处理即打标"。蚂蚁集团ODPS已实践"数据血缘+动态打标"联动机制,使敏感数据识别延迟从小时级降至毫秒级。
2、全链路标签透传体系
上海奥腾科技通过构建元数据中枢化治理模式实现全链路标签透传,其核心机制包含三个关键设计:
(1)统一信源驱动:以元数据管理系统作为分类分级标签的唯一权威源,在数据全生命周期各环节(采集、加工、服务)强制实施标签同步协议。我们采用轻量化API网关实现各子系统(数据治理开发平台、计算引擎、API服务)与元数据中心的实时交互,确保标签变更毫秒级生效。(2)标签透传采用双向赋能架构:
- 正向透传:在数据开发阶段,自动识别模块(如敏感数据扫描器)将发现结果直接写入元数据,并沿数据血缘自动继承至衍生表;
- 逆向反馈:在数据消费层(BI工具、API响应),脱敏模块实时查询元数据标签库,动态加载最新策略,同时将业务上下文(如新发现的敏感字段模式)反向沉淀至元数据中心。
3、混合标注生态:
智能标注流水线采用多模态识别技术(规则引擎+深度学习模型),对结构化/半结构化数据实现自动打标。
人工标注台与元数据编辑器深度整合,支持业务专家直接在数据资产目录中对特定字段(如"工资")进行语义化标注,标注结果实时同步至全链路。
本方案突破点在于:
- 无侵入式透传:无需改造存储格式或传输协议,通过元数据总线实现跨系统标签一致性。
- 动态策略热加载:策略引擎与元数据服务解耦,支持灰度发布、A/B测试等敏捷迭代能力。
- 细粒度版本控制:标签变更记录与数据版本绑定,可精确追溯历史快照的脱敏策略。
该设计已在某头部券商落地验证,实现从ODS层原始数据到ADS层应用接口的端到端标签透传,策略生效延迟从分钟级压缩至50ms以内,人工标注干预量降低至总数据资产的3.2%。
(二)关键技术组件改造
1、元数据管理系统:增加敏感度维度字段,与分类分级系统双向同步。并且根据血缘关系,自动扩散打标。
2、API网关 : 集成标签解析引擎,自动拦截未脱敏字段。对元数据中已经标定的分类分级标签,自动实现动态脱敏。
3、前端框架:开发安全SDK,根据数据标签动态渲染脱敏组件(如身份证号*号替换)。
4、数据目录:构建本体映射模型,实现业务属性与安全标签的语义对齐 。
(三)、架构先进性评估
当前架构通过深度集成分类分级能力到数据中台核心层,并形成“元数据打标-权限映射-动态脱敏”的闭环体系,已实现数据安全防护范式的三大跃迁:
1、从外挂到内生
突破传统安全产品"旁观者"模式,将分类分级引擎嵌入数据中台的元数据管理、计算引擎、API网关等核心组件(类似蚂蚁集团DSec内核设计),实现安全能力与数据流动的同步共生。
2、从静态到动态
通过用户权限等级与数据标签的实时匹配(如基于ABAC的动态策略引擎),实现"千人千面"的细粒度脱敏(例如:同一客户的银行流水,客户经理仅见部分掩码,审计部门可查看完整信息)。
3、从人工到人机协同
在支持自动扫描打标的同时保留人工干预通道,形成"AI初筛+人工校验"的混合模式,与微软Azure Purview的敏感数据治理方案高度契合。
按照金融、政务等强监管行业《数据安全能力成熟度模型(DSMM)》"量化管控级"要求。我们将分类分级能力嵌入数据中台核心、实现元数据标签与权限系统的动态联动,这符合数据安全领域的两大前沿方向:
(1)内生安全(Security by Design)突破传统"外挂式"安全模式,将分类分级引擎植入数据中台的元数据管理、API网关等核心组件(如阿里云DataWorks的敏感数据识别模块),符合Gartner提出的"数据安全网格(Data Security Mesh)"理念。
(2)动态自适应防护通过权限等级与数据标签的实时匹配实现动态脱敏(如银行领域普遍采用的"字段级动态掩码"),与MITRE提出的"持续自适应数据保护(CADP)"框架核心思想一致。
相较于行业普遍存在的带外扫描架构,该方案在以下方面具有先进性:
- 时延优化:避免传统T+1扫描导致的数据保护真空期。
- 细粒度控制:实现用户-数据-场景的三维权限映射(如:同一客户的电话号码,客服人员看到后四位,风控部门可见完整信息)。
- 架构耦合度:通过元数据系统实现安全策略的穿透式执行,规避多系统协同失效风险。
四、潜在风险
(一)技术性挑战
长尾数据覆盖难题,当前自动化扫描依赖结构化数据特征匹配,对非标字段(如JSON嵌套字段、PDF扫描件)识别率不足。当某字段同时匹配"个人身份证号"(需脱敏)和"风控特征值"(需明文)时,传统优先级规则可能导致业务异常。某银行因此发生反洗钱系统误脱敏事件。
(二)运营性风险
人工标注质量波动,如某互联网平台统计显示,不同业务部门对"工资"字段的标注一致率仅68%(人力资源部标为L3机密,财务部标为L2内部)。
所以,建议要构建策略沙箱环境,模拟验证后再投产。要不断改进系统方案,综合采用人工智能技术,为数据安全保驾护航。