技术社区

已经分类分级了，为什么敏感数据依然泄露

上海奥腾科技 2024年8月10日 10:01

一、现状

《中华人民共和国数据安全法》明确规定，国家需要建立数据分类分级保护制度。数字部门在发展建设过程中，一方面由于业务需要，采集、存储了海量的公民个人信息，另一方面为了满足国家治理需要，数字部门也会接触井存储一部分关于国家安全、重要民生、重大公共利益等重要数据，因而非常担心重要数据泄露。尽管采取了系统安全防护、分类分级系统建设、敏感数据存储加密、红区蓝区设定等保密措施，但是依然出现敏感数据泄露的情况。这是为什么呢？

本文不讨论系统安全防护缺失、黑客攻击、安全漏洞、人为恶意数据泄密等常规安全隐患，我们从大数据中心分类分级系统建设出发，反思如下问题：

1）分类分级系统是否及时发现了敏感数据？

2）分类分级是为了看，还是为了用？

很多大数据中心分类分级采用的是第三方安全产品，带外实现分类分级的打标。这样的架构，主要是大家都认为分类分级是安全部门的工作，而不是数据管理部门的工作。这可能导致如下问题：

1) 分类分级系统带外定期扫描，只能采用静态定期脱敏，导致新的数据没有脱敏。

2) 页面浏览数据未调用分类分级系统，导致敏感数据未脱敏展现。易出现泄露。

3）元数据管理系统与分类分级系统未关联，因而在很多数据处理环节上，不能将敏感数据分开对待。

4）很多API服务系统与分类分级系统没有对接，如果是人工定制的API接口，更容易忽略与分类分级系统的对接。导致敏感数据泄露。

图1-分类分级带外管理

二、基于带外打标模式的风险分析

在数字化转型加速的背景下，全球大数据中心日均处理数据量已突破千万TB量级。为应对《数据安全法》《个人信息保护法》等合规要求，超过76%的企业选择部署第三方安全产品进行数据分类分级。但行业普遍采用的"带外打标"架构，将分类分级系统独立部署于数据管理流程之外，暴露出严重的技术断层与组织协同缺陷。因而我们基于对金融、政务等行业的实践观察，深度剖析该模式下的系统性风险。

当前主流的带外分类分级架构，通常采用独立部署的安全探针周期性扫描数据库、文件服务器等存储系统，通过正则匹配、关键词识别等方式进行数据打标。这种"事后补丁"式设计源于企业组织架构的深层矛盾：数据管理部门聚焦于数据资产运营，而安全部门片面追求合规达标，两者在数据全生命周期管理中形成责任真空地带。带外打标架构的固有缺陷带来的缺陷如下：

1、静态脱敏机制的时效性缺陷

（1）扫描周期与数据动态性的矛盾

典型带外系统以T+1或周级频率执行扫描，无法覆盖实时数据管道（如Kafka流数据）。某证券公司的用户行为分析系统即因此产生监管事故——实时采集的客户持仓数据在入湖后12小时才被分类系统识别，期间分析师已通过BI工具导出未脱敏数据。

（2）动态数据场景的防护失效

在机器学习场景中，原始数据经特征工程处理后可能产生新的敏感字段（如将经纬度转换为居住区域分级）。带外系统因缺乏对数据处理逻辑的理解，难以动态调整分类策略，导致某医疗AI公司患者轨迹数据二次泄露。

2、数据展示层的防护盲区

（1）前端页面的元数据割裂

主流分类分级系统与前端框架（React/Vue）缺乏深度集成。某政务服务平台曾发生公民身份证号泄露事件：后端数据库虽已标记为PII，但前端开发人员直接调用未经脱敏处理的API接口，分类标签未传递至展现层。

（2）移动端的数据流失控

在混合开发（Hybrid App）场景下，H5页面与原生容器的数据交互通道往往绕过企业安全沙箱。某银行App因此导致缓存数据泄露——用户浏览的贷款记录虽在服务端加密，但本地SQLite中明文存储且未关联分类标签。

3、元数据治理的协同障碍

（1）数据血缘断链风险

在数据湖架构中，ETL作业产生的衍生表与原表分类标签未建立继承关系。某电商平台的典型案例显示：订单明细表被正确标记为L3级，但其聚合生成的区域销售统计表因缺乏元数据关联，被误判为公开数据导出至第三方。

（2）数据目录的映射失真

独立建设的分类分级系统与元数据管理系统（如Apache Atlas）采用不同本体模型。某汽车厂商的数据治理平台中，发动机参数在元数据系统定义为"技术数据"，而在分类系统标记为"商业秘密"，导致自动化脱敏规则冲突。

4、 API生态的安全黑洞

（1）长尾API的监管缺失

在企业和大型组织中，通常存在少数高使用量的主流 API 和大量低使用频率的 API，这些低使用频率的 API 就是所谓的 "长尾 API"。

据Gartner统计，企业平均存在34%的"影子API"未被纳入管理。由于静态脱敏是定期执行，这导致新鲜数据来不及打标。为了保证最新鲜的数据能及时提供服务，开发人员很可能将尚未打标的敏感字段，直接暴露给用户。某零售企业的促销系统快速上线时，开发人员为赶工期直接开放了包含会员手机号的未打标API，三个月后因爬虫攻击导致百万级数据泄露。

（2）协议转换中的标签丢失

在SOAP转RESTful、GraphQL等协议转换场景下，传统网关无法保持分类标签的跨协议传递。某航空公司的机票查询接口因此发生数据泄露——SOAP服务返回的脱敏数据经转换后，RESTful响应中竟包含完整信用卡CVV码。

如果大数据中心的API依靠开发人员编写，而不是采用统一的API生成工具，这种协议转换带来的信息泄露，就难以避免。

三、体系化改进框架

上海奥腾科技采用深度集成的架构设计，将数据分类分级能力内嵌至数据中台核心层，构建起三位一体的防护机制：首先基于元数据管理系统实施标准化打标，通过预置规则引擎与机器学习模型实现结构化数据的自动化标注；其次建立动态权限映射模型，将用户角色属性（RBAC）与数据敏感等级（如：L1-L4）进行多维度关联；最终在数据消费层（含可视化浏览界面与API服务网关）实施实时策略解析，依据主体权限等级和客体分类标签执行差异化脱敏处理，具体脱敏算法（如掩码、泛化、加密等）可通过策略库进行灵活配置。针对增量数据资产，规划部署智能发现引擎，通过数据血缘追溯与模式识别技术实现新入湖表的自动扫描标注，同时保留人工标注通道以处理复杂语义场景（如业务特定字段"工资"的语义歧义消解），形成"机器为主、人机协同"的混合治理范式。该架构符合Gartner倡导的Data-Centric Security架构原则，在保障实时性的同时兼顾治理灵活性。

（一）技术架构升级

1、嵌入式分类分级引擎

在数据处理关键节点（如Flink实时计算引擎、敏感数据自动发现引擎）内置轻量化分类模块，实现"处理即打标"。蚂蚁集团ODPS已实践"数据血缘+动态打标"联动机制，使敏感数据识别延迟从小时级降至毫秒级。

2、全链路标签透传体系

上海奥腾科技通过构建元数据中枢化治理模式实现全链路标签透传，其核心机制包含三个关键设计：

（1）统一信源驱动：以元数据管理系统作为分类分级标签的唯一权威源，在数据全生命周期各环节（采集、加工、服务）强制实施标签同步协议。我们采用轻量化API网关实现各子系统（数据治理开发平台、计算引擎、API服务）与元数据中心的实时交互，确保标签变更毫秒级生效。

（2）标签透传采用双向赋能架构：

正向透传：在数据开发阶段，自动识别模块（如敏感数据扫描器）将发现结果直接写入元数据，并沿数据血缘自动继承至衍生表；
逆向反馈：在数据消费层（BI工具、API响应），脱敏模块实时查询元数据标签库，动态加载最新策略，同时将业务上下文（如新发现的敏感字段模式）反向沉淀至元数据中心。

3、混合标注生态：

智能标注流水线采用多模态识别技术（规则引擎+深度学习模型），对结构化/半结构化数据实现自动打标。

人工标注台与元数据编辑器深度整合，支持业务专家直接在数据资产目录中对特定字段（如"工资"）进行语义化标注，标注结果实时同步至全链路。

本方案突破点在于：

无侵入式透传：无需改造存储格式或传输协议，通过元数据总线实现跨系统标签一致性。
动态策略热加载：策略引擎与元数据服务解耦，支持灰度发布、A/B测试等敏捷迭代能力。
细粒度版本控制：标签变更记录与数据版本绑定，可精确追溯历史快照的脱敏策略。

该设计已在某头部券商落地验证，实现从ODS层原始数据到ADS层应用接口的端到端标签透传，策略生效延迟从分钟级压缩至50ms以内，人工标注干预量降低至总数据资产的3.2%。

（二）关键技术组件改造

1、元数据管理系统：增加敏感度维度字段，与分类分级系统双向同步。并且根据血缘关系，自动扩散打标。

2、API网关：集成标签解析引擎，自动拦截未脱敏字段。对元数据中已经标定的分类分级标签，自动实现动态脱敏。

3、前端框架：开发安全SDK，根据数据标签动态渲染脱敏组件（如身份证号*号替换）。

4、数据目录：构建本体映射模型，实现业务属性与安全标签的语义对齐。

（三）、架构先进性评估

当前架构通过深度集成分类分级能力到数据中台核心层，并形成“元数据打标-权限映射-动态脱敏”的闭环体系，已实现数据安全防护范式的三大跃迁：

1、从外挂到内生

突破传统安全产品"旁观者"模式，将分类分级引擎嵌入数据中台的元数据管理、计算引擎、API网关等核心组件（类似蚂蚁集团DSec内核设计），实现安全能力与数据流动的同步共生。

2、从静态到动态

通过用户权限等级与数据标签的实时匹配（如基于ABAC的动态策略引擎），实现"千人千面"的细粒度脱敏（例如：同一客户的银行流水，客户经理仅见部分掩码，审计部门可查看完整信息）。

3、从人工到人机协同

在支持自动扫描打标的同时保留人工干预通道，形成"AI初筛+人工校验"的混合模式，与微软Azure Purview的敏感数据治理方案高度契合。

内嵌分级.png

图2-数据中台内嵌的分类分级系统

按照金融、政务等强监管行业《数据安全能力成熟度模型（DSMM）》"量化管控级"要求。我们将分类分级能力嵌入数据中台核心、实现元数据标签与权限系统的动态联动，这符合数据安全领域的两大前沿方向：

（1）内生安全（Security by Design）

突破传统"外挂式"安全模式，将分类分级引擎植入数据中台的元数据管理、API网关等核心组件（如阿里云DataWorks的敏感数据识别模块），符合Gartner提出的"数据安全网格（Data Security Mesh）"理念。

（2）动态自适应防护

通过权限等级与数据标签的实时匹配实现动态脱敏（如银行领域普遍采用的"字段级动态掩码"），与MITRE提出的"持续自适应数据保护（CADP）"框架核心思想一致。

相较于行业普遍存在的带外扫描架构，该方案在以下方面具有先进性：

时延优化：避免传统T+1扫描导致的数据保护真空期。
细粒度控制：实现用户-数据-场景的三维权限映射（如：同一客户的电话号码，客服人员看到后四位，风控部门可见完整信息）。
架构耦合度：通过元数据系统实现安全策略的穿透式执行，规避多系统协同失效风险。

API分级权限.png

图3-API生成与分类分级及用户权限关联

四、潜在风险

（一）技术性挑战

长尾数据覆盖难题，当前自动化扫描依赖结构化数据特征匹配，对非标字段（如JSON嵌套字段、PDF扫描件）识别率不足。当某字段同时匹配"个人身份证号"（需脱敏）和"风控特征值"（需明文）时，传统优先级规则可能导致业务异常。某银行因此发生反洗钱系统误脱敏事件。

（二）运营性风险

人工标注质量波动，如某互联网平台统计显示，不同业务部门对"工资"字段的标注一致率仅68%（人力资源部标为L3机密，财务部标为L2内部）。

所以，建议要构建策略沙箱环境，模拟验证后再投产。要不断改进系统方案，综合采用人工智能技术，为数据安全保驾护航。

数据中台概念再讨论

DAMA数据质量规范在政务大数据中的实践