第一章 公司背景
1.1 公司简介
上海奥腾计算机科技有限公司(简称"奥腾科技")成立于2001年10月,是一家专注于数据处理与数据治理的高科技企业。公司凭借二十余年的IT行业经验,奥腾科技已成为技术领先的数据中台解决方案提供商,为政府和企业客户提供全链路的数据处理产品和服务。
公司秉承"求真务实、协同共赢、创新进取"的核心价值观,致力于通过技术创新和数据治理,帮助客户实现数据资产的增值。奥腾科技拥有完整的自主可控软件体系,产品通过多项权威认证,包括ISO9001质量管理体系认证、ISO27001信息安全管理体系认证,以及数据中台产品的CMA/CNAS认证。
1.2 发展历程
2001年: 公司成立,专注数据处理领域
2010年: 推出第一代数据治理产品
2017年: 发布数据中台V1.0,聚焦结构化数据处理
2020年: 发布数据中台V2.0,支持多模态数据处理
2023年: 发布数据中台V3.0,全栈AI融合,通过CMA/CNAS认证
2026年: 持续创新,推出可信数据空间解决方案
公司发展历程图
展示从2001年成立至今的关键发展节点和里程碑事件

1.3 核心优势
• 深厚行业积累: 20+年数据处理经验,服务政府、金融、电信、企业等多个行业
• 自主可控: 100%自主研发,与国产化软硬件体系全面适配
• 技术创新: 基于DataOps思想,融合AI技术,引领行业发展
• 全栈能力: 从数据采集到应用的全链路数据处理能力
• 专业服务: 7×24小时技术支持,完善的服务保障体系
第二章 产品概述
2.1 产品定位
奥腾多模态数据中台3.0是基于DataOps思想的全链路数据处理平台,是面向业务的数据产品开发系统。产品以"连接资源、协同业务、安全管控"为核心定位,聚焦政府、金融、电信等重点行业的数据治理、数据资产管理和数据应用需求。
产品采用"原子产品+微服务+可编排"的架构设计,基于分布式部署理念,提供从数据采集、处理、存储、服务到应用的全流程自动化、智能化数据处理能力。通过连接业务场景与多模态数据,自然融合AI能力,以开源技术为底座,具备全栈性、高可靠性、智能化的特点。
核心特点:
• 时间节省10倍以上
• 部署复杂度降低65%
• 建设成本下降50%
• 实现数据处理平权化
2.2 核心价值
2.3 通用产品族谱
奥腾多模态数据中台3.0由9大核心产品模块组成,每个模块可独立部署,也可组合使用,形成完整的解决方案。并由此演化出可信数据空间系统。
下图展示核心数据处理产品以及数据应用产品:
第三章 产品架构
3.1 总体架构
多模态数据中台 3.0 架构强调“全域数据汇聚 → 可信治理 → 数据资产化 → 服务化输出 → 跨组织可信流通 → AI 智能化增强”。通过各层输入、处理和输出的闭环,实现数据从原始采集到智能应用的全链路价值释放,为企业提供可运营、可服务、可共享、可智能化的数据中台能力。
1. 多模态数据源层(数据供给侧)
主要目标
统一承接企业内外部的多类型数据输入,覆盖结构化、半结构化、非结构化与多媒体数据,形成“全域数据底座”。
包含范围(对应图示)
· 结构化:RDB、MPP、Hadoop 等
· 半结构化:JSON、日志、网页
· 非结构化:文档、图片、视频
意义
· 支撑从传统 BI/指标分析到知识管理、智能检索、智能问答、视频理解等全新场景。
· 为“多模态智能”提供原始燃料,解决过去中台只适配表数据、难以覆盖文本/图像/视频价值的问题。
2. 统一数据集成层(汇聚入湖/入仓,打通数据壁垒)
主要目标
通过多通道、多协议、全/增量/实时等方式,将分散数据稳定接入到统一存储与计算体系,并在接入阶段完成必要的预处理与合规控制。
关键能力点(对应图示)
· 全量/增量/差异更新入湖、CDC 实时同步
· API 归集、FTP/SFTP、文件导入、格式转换
· 批量筛选、行列筛选、流量控制
· OCR 识别(对非结构化内容结构化提取)
· 数据加密、字段类型转换、分布式计算
意义
· 从“项目式对接”升级为“平台化接入”,显著降低系统对接成本与数据时延。
· 让非结构化内容在进入中台时就具备可检索、可治理的基础条件(例如 OCR/解析)。
· 在数据进入中台的第一公里就嵌入安全与控制(加密、流控等),为后续可信共享打基础。
输入(数据源)
· 各种外部和内部数据源:API 接口、数据库、文件系统(FTP、SFTP)、日志系统、社交媒体、传感器设备等。
· 增量更新、全量更新、实时数据:从外部系统或设备获取的各类数据。
输出(集成结果)
· 数据集成层数据:整合后的数据(统一格式化)存入数据湖/数据仓,准备进一步处理。
· 实时/增量更新数据集:能够支持实时数据流与增量数据同步到中台数据仓库。
市场价值
通过灵活的接入方式将所有数据源无缝接入,实现企业数据的即时性与全面性,打破数据孤岛,为后续智能分析奠定基础。
3. 数据处理与治理层(把数据变“可用、可信、可管、可复用”)
这一层是 3.0 的“数据生产线”,核心不是存数据,而是把数据加工成资产。图中分为六大域:
3.1 数据目录编制(让数据“可发现、可理解、可追溯”)
目标:建立统一数据目录与元数据体系,管理连接、登记、发布、版本、注释等。
意义:解决“数据找不到、看不懂、用不稳”的问题,是资产化与共享交换的前提。
3.2 结构化数据质量管理(让数据“可信可控”)
目标:用规则、策略、报告、看板闭环管理数据质量,处理脏数据与质量追溯。
意义:把“结果不可信”从业务痛点变成可量化、可治理的工程问题,支撑指标口径一致与经营分析可信。
3.3 数据治理与开发(让数据“可生产、可运营”)
目标:提供组件化的数据开发与运维能力(输入输出、转换、融合计算、机器学习、质检、画布编排、任务看板、资产发布)。
意义:将数据工程标准化、流水线化,减少重复开发;同时通过任务可观测提升稳定性与交付效率。
3.4 数仓建模(让数据“面向决策与分析”)
目标:主题域/实体、粒度、维表事实表、Cube 分析、指标体系、BI 可视化与发布。
意义:把数据从“原始记录”组织为“可分析的业务语义体系”,支撑经营驾驶舱、指标管理与分析应用规模化复制。
3.5 非结构化数据处理(让文本/图像/视频“可计算、可检索、可理解”)
目标:相似聚类、实体识别、摘要、视频内容分析、视觉识别训练、语音识别、情感分析预测等。
意义:这是多模态中台 3.0 与传统数据中台的分水岭——让非结构化信息进入治理、资产与应用闭环,释放知识与内容资产价值。
3.6 数据安全(让数据“可用不可见、可控可审计、合规可证明”)
目标:敏感识别、分类分级、脱敏(静态/动态)、加密存储、隐私计算、GDPR/PIPL 遵从。
意义:把“数据安全”从被动合规升级为平台能力,使数据能够在更多组织/角色/场景中被安全复用与共享,支撑可信流通。
3.7 数据处理的能力总结
输入(集成数据)
· 原始数据:来自数据源层和集成层的各种格式数据。
· 质量审查要求:针对不同数据源的质量标准,进行合规与质量审查。
· 元数据与血缘关系:数据的来源、流动过程及其关联信息。
输出(处理产物)
· 数据质量管理报告:数据质量审查与整改结果,确保数据符合标准。
· 数据资产目录:对接入的多模态数据创建目录,支持数据发现和查询。
· 治理规则与策略:数据标准、标签、质量控制策略等。
· 主题域建模与标准化指标体系:根据业务需求进行的建模,生成标准化的可复用指标体系。
市场价值
保障数据质量、完整性、可用性,提升数据的信任度与价值,尤其在复杂环境下的监管合规(如 GDPR、PIPL)方面,降低数据治理风险。
4. AI+ 智能增强层(3.0 的“智能中枢”,让数据体系 AI Native)
主要目标
将大模型与多模态 AI 能力嵌入数据全链路:从数据理解、治理、检索到应用生成,形成“数据 + 模型 + 工具/智能体”的闭环。
图中能力(示例)
LLM、NLP、智能体、OCR/视频解析、GraphRAG(图谱增强检索生成)、MCP 等。
意义
· 降低使用门槛:把“懂 SQL/懂模型”变为“懂业务就能问/能用”。
· 提升治理效率:自动补全元数据、口径解释、质量规则建议、异常定位等。
· 增强多模态应用:实现跨文本-图像-视频的统一检索、问答、报告生成。
· 沉淀组织知识:GraphRAG 将目录/血缘/指标/实体关系组织为可推理的知识网络,避免“知识散落在文档与人脑中”。
输入(数据与模型)
· 多模态数据:来自各类数据源与集成处理层的数据,包含文本、图像、音频等。
· 智能模型需求:包括大语言模型(LLM)、自然语言处理(NLP)、图神经网络(GraphRAG)等模型。
输出(智能产物)
· 智能数据服务:如智能问答、数据自动补全、异常检测、预测分析等。
· 知识图谱与语义理解:自动生成与业务相关的知识图谱,支持更智能的查询与分析。
· 自动化报告生成:根据业务需求自动生成分析报告、趋势分析等。
· 智能决策支持:为高层决策者提供数据驱动的洞察,辅助决策。
市场价值
AI能力的嵌入使得数据中台不仅仅是一个数据存储与处理平台,更是一个“智能数据引擎”,能在业务运营中实现“自动化、智能化”的决策与数据处理,极大提升企业的效率与竞争力。
5. 数据应用与数据流通层(资产化运营 + 服务化供给 + 可信共享)
这一层解决“数据怎么被持续用起来,并可规模化对外供给”的问题,图中四块:
5.1 资产集市(Data Marketplace/资产运营)
目标:提供资产目录、数据集/指标/API 资产、规范、质量、样例、血缘影响、授权与变更等运营能力。
意义:实现从“存数据”到“运营数据资产”的转变,让资产可度量、可定价(价值评估)、可复用、可管控。
5.2 数据共享交换(服务化输出与管控)
目标:API 低代码生成、订阅推送、空间分配、过滤、工单审批、签名验签、自动脱敏、白名单、日志与流控。
意义:把数据交付从“文件搬运/临时接口”升级为“可治理的数据服务”,兼顾效率与安全审计。
5.3 资产应用(面向业务的智能化应用形态)
目标:多模态搜索、标签/知识图谱、智能问数、智能报告、低代码填报等。
意义:让数据价值直接触达业务人员,形成“用数据驱动业务”的最后一公里,并通过低代码/智能化缩短应用上线周期。
5.4 可信数据空间(跨组织可信协同)
目标:数据产品市场、连接器发放、隐私计算、合约与存证、空间与角色管理。
意义:支撑跨部门、跨集团、跨机构的“可信数据流通”,实现可用不可见、过程可控、结果可追溯,为数据要素化与外部协同奠定基础。
6. 平台底座层(引擎/算力/项目空间:稳定运行与规模化的前提)
主要目标
提供中台的工程化底座,保障任务运行、资源调度、权限体系、审计追踪、标准体系与微服务扩展能力。
图中典型能力
任务调度编排、分布式流批一体引擎、数据标准、防篡改日志、消息/节点管理、微服务架构、统一身份认证与安全、细粒度权限(数据/项目/系统)、主动元数据、项目空间管理、流程引擎等。
意义
· 让中台具备“可运营、可扩展、可审计、可SLA化”的工程能力。
· 支撑多团队并行与多租户隔离(项目空间/权限/流程),实现平台级规模化落地。
3.3 核心数据处理流程
该流程面向企业多源异构数据(结构化/半结构化/非结构化、多媒体),以“采集接入—归集沉淀—分层加工—治理与建模—汇总服务—资产运营—共享交换”为主线,形成既支持离线批处理的高质量沉淀,又支持实时流处理的即时响应的“批流一体”体系,最终将多模态数据转化为可运营的数据资产与可复用的数据服务。
1. 流程总览:批流一体的多模态数据生产线
多模态数据处理全流程采用“统一接入—归集沉淀—分层加工—治理增强—资产运营—服务供给”的闭环生产线设计,兼容离线批处理与实时流处理两种链路:
· 离线链路用于沉淀高质量、强复用的标准数据与主题资产,支撑经营分析、报表体系、知识沉淀与模型训练。
· 实时链路用于支撑在线业务的即时响应,例如实时监控、告警联动、实时画像、实时风控与实时推荐。
两条链路最终在“共享交换/服务化交付”层汇合,实现数据资产面向组织内外的安全、可控、可审计流通。
2. 统一接入:覆盖结构化与多模态的全域数据采集
平台提供面向多源异构数据的统一接入能力,覆盖:库表同步、文件导入、API 对接、数据填报、日志/流式事件采集,以及面向图片/扫描件的 OCR 识别接入。
这一阶段强调“全量覆盖与统一入口”,确保多模态数据从进入平台开始即被纳入同一套标准、元数据与安全框架之下,避免后续治理割裂。
白皮书要点(可直接引用)
· 多模态接入一体化:结构化数据与文档/图片/视频等内容数据同源治理。
· 接入即纳管:接入过程同步生成必要的元信息与管控信息,为后续可追溯、可审计打基础。
3. 安全归集与编目:把“可控合规”前置到第一公里
在进入平台加工体系之前,通过前置侧能力完成数据编目、加密归集与必要的安全处理:
· 数据编目保证数据可发现、可理解、可定位责任主体;
· 加密归集与策略控制保证数据“可用不可见”,为跨部门共享与跨组织协作奠定合规基础。
这一设计的核心,是把安全与治理能力从“事后补救”前移到“接入第一公里”,降低后续流通风险与合规成本。
4. 离线批处理链路:分层加工,沉淀高质量可复用数据资产
离线链路采用典型的数据仓库分层思想,形成从“原始沉淀”到“主题汇总”再到“资产运营”的标准化数据生产过程:
4.1 贴源沉淀(ODS):保留原貌,支撑追溯与重算
数据在 ODS 层以贴近源头的方式沉淀,完整保留数据原貌与批次信息。其价值在于:
· 为质量核查、口径追溯与问题复盘提供依据;
· 为后续规则调整、模型迭代提供可重算底座。
4.2 质量门禁(数据质检):把风险拦截在进入标准层之前
在进入标准加工之前,通过质检规则体系对完整性、一致性、唯一性、及时性、合法性等进行检测,并形成质量报告与问题数据隔离机制。
流程支持将质量问题与问题数据回传数据源单位,形成“发现—定位—反馈—修复—再验证”的治理闭环。
白皮书表达建议:将这一环节定位为“数据可信体系的门禁”,强调“质量可衡量、问题可闭环、责任可追溯”。
4.3 清洗标准化:把“可用性”规模化生产出来
对质量环节识别的问题数据进行清洗修复、格式统一、码表映射与去重补全,使数据满足进入标准模型层的要求。
该环节的关键不在“处理动作”,而在“标准化可复用”:同类问题通过规则化与组件化沉淀,持续降低边际治理成本。
4.4 标准明细层(DWD):以业务主题域组织统一语义
在业务规划(主题域、实体、分项目)的指导下,将清洗后的数据组织为统一的业务语义模型,形成可复用的明细事实与标准实体。
DWD 的定位是“跨系统一致口径的业务语言层”,为企业级指标体系、主数据体系与跨域分析提供基础。
4.5 治理增强与智能加工:将多模态治理能力嵌入生产线
在从 DWD 走向汇总与资产的过程中,将一组“治理增强能力”内生化到加工链路中,包括:
· 数据标准与质量管理的持续化运行;
· 内容稽查与合规识别(面向文本/图片等内容数据);
· 分类分级(面向安全等级与业务类别);
· 机器学习/AI 能力用于自动标注、异常识别、特征构建等;
· 沙盒化开发与生产隔离,兼顾创新敏捷与生产稳定。
这部分是“多模态数据中台 3.0”与传统数仓最大的差异点:数据不只是被加工,更在加工过程中被理解、标注、分级与合规化。
4.6 主题汇总层(DWS):面向场景交付“可直接使用”的主题数据
在 DWS 层面向具体业务场景进行汇总聚合,沉淀主题数据集与专题数据集,并提供“专题沙盒”支撑快速试验、快速迭代。
其价值是将数据交付从“表级交付”升级为“场景级交付”,显著提升业务使用效率。
5. 实时流处理链路:在线计算,支撑即时业务动作
实时链路通过 CDC、消息队列与接口封装等机制接入变更与事件流,进入实时处理引擎完成清洗、聚合、规则计算与模型推理。
处理结果以流式方式回流到共享交换体系,支撑:实时告警、实时监控、实时风控、实时画像更新等在线业务。
白皮书要点
· 让数据价值从“事后分析”前移到“事中决策”。
· 与离线资产互补:实时链路消费离线沉淀的主数据/标签/维表,离线链路吸收实时结果形成长期资产。
6. 资产管理:把“数据产品化”,形成可运营资产货架
在资产管理环节,将数据汇总产物进一步抽象为可复用、可管理、可计量的数据资产形态,典型包括:
· 指标资产(统一口径、计算逻辑、血缘与解释);
· 主数据资产(客户/组织/产品等核心实体的唯一版本);
· 标签与文本分类资产(画像标签、内容分类体系);
· 关系图谱资产(实体关系网络/知识关联);
· 报告报表资产(经营看板、专题报告)。
资产管理的核心价值是:让数据从“工程产物”升级为“运营对象”,可订阅、可复用、可度量其使用与价值贡献。
7. 共享交换与服务化交付:统一出口,安全流通
共享交换作为统一对外出口,对资产进行 API 化、服务化与可控分发,支持:
· API 生成与生命周期管理;
· 动态脱敏与细粒度权限控制;
· 库表推送、网页浏览式服务、流式对接等多种交付方式;
· 全链路审计与可追溯,满足合规要求。
这使平台具备对内支撑多业务复用、对外支撑生态协作与数据要素化流通的能力。
结语:流程设计带来的综合价值
通过该全流程,企业能够实现从“多源多模态数据”到“可信数据资产与可复用数据服务”的工业化转化:
· 数据可汇聚:一体化接入与归集;
· 数据可信:质量门禁 + 闭环治理;
· 数据可理解:多模态识别、标注、分类分级;
· 数据可复用:主题化沉淀与资产化管理;
· 数据可流通:共享交换、动态脱敏与审计;
· 数据可智能:AI 能力贯穿加工与应用,支撑智能化业务创新。
第四章 核心功能
奥腾多模态数据中台3.0面向企业级数据治理、数据开发、数据资产运营与智能应用场景,构建了覆盖数据采集、数据开发、数据治理、数据资产管理、智能分析、安全防护和合规审计的全栈能力体系。平台采用云原生架构设计,兼具强兼容性、高性能、弹性扩展及智能化特征,能够支持多源异构数据统一接入、结构化与非结构化数据融合治理,以及面向业务场景的数据共享服务与价值运营,帮助组织实现从“数据汇聚”到“数据治理”,再到“数据服务”和“数据价值变现”的闭环管理。
结合产品能力与应用场景,奥腾多模态数据中台3.0的核心功能主要体现在以下八个方面。
4.1 兼容性强、性能卓越、弹性扩展的云原生架构
奥腾多模态数据中台3.0采用云原生技术架构,具备良好的系统兼容性、计算性能与横向扩展能力,可适配企业复杂的数据基础设施环境,为大规模数据接入、处理、治理和服务提供稳定底座。
平台已兼容100多种小版本的主流及国产数据库的同时连接,能够支持不同数据库之间字段类型自动映射、自动建表及异构数据结构适配,大幅降低跨源数据集成难度。在计算层面,平台内置分布式并行计算引擎与大规模任务调度引擎,并通过独立节点承担计算与调度任务,有效减少对源数据库和业务系统的运行压力,保障核心业务稳定性。
同时,平台支持分布式文件系统和弹性资源扩容机制,可根据数据规模、任务负载和业务高峰进行动态扩展,满足企业从部门级应用到集团级数据中台建设的持续演进需求。
核心能力包括:
· 支持100多种小版本数据库和多类型异构数据源统一接入;
· 支持异构库表字段类型自动映射与自动建表;
· 内置分布式并行计算引擎,提升任务处理效率;
· 具备独立任务调度能力,降低源端数据库运行负担;
· 支持分布式文件系统和云原生弹性扩展部署。
4.2 自动化编目与归集能力
数据归集是数据中台建设的基础环节。奥腾多模态数据中台3.0围绕海量数据接入和统一管理需求,构建了自动化编目与归集体系,实现源端数据资源和中心端数据资产的自动梳理、统一采集和持续更新。
平台支持对源端系统进行自动化编目,并同步生成中心端数据资产目录,帮助用户快速掌握数据分布情况和资源全貌。在归集方式上,系统覆盖库表抽取、文件导入、实时CDC归集、API接口对接、FTP/SFTP传输等多种方式,满足不同系统环境和时效要求下的数据采集需求。
在更新机制上,平台支持全量替换、增量插入、差异更新等多种策略,可根据业务场景灵活配置。同时,系统内置自动对账能力,能够实现源端与目标端的数据一致性校验,保障归集结果准确可靠。
核心能力包括:
· 自动化源端编目与中心端资产编目;
· 支持库表抽取、文件导入、CDC、API、FTP/SFTP等多种归集方式;
· 支持全量、增量、差异化更新策略;
· 支持分布式并行归集,保障高性能处理;
· 支持源端与目标端数据自动对账。
4.3 项目开发空间与可视化数据开发能力
奥腾多模态数据中台3.0提供面向数据工程师、分析师和业务人员的统一项目开发空间,以可视化、组件化、低代码的方式提升数据开发和共享效率,实现“像搭积木一样”完成数据处理与应用构建。
平台内置丰富的开发组件,涵盖输入、多表同步、数据融合、数据转换、输出、脚本、机器学习等多个类别,组件数量丰富,可覆盖常见数据处理链路。通过图形化开发界面,用户能够快速构建从数据接入、清洗加工、建模分析到结果输出的端到端流程。
在数据建模与分析方面,平台支持主题域、维表、事实表、指标体系构建,支持二维分析、CUBE多维上卷下钻、切片、旋转等典型分析操作,满足复杂业务分析需求。同时,平台支持API自动生成、向导式配置、动态签名校验、日志追踪及风险阻拦,帮助用户快速将开发成果服务化输出。
此外,平台具备开发—测试—生产双沙箱能力,支持模型与任务的一键发布,既提高研发效率,也提升上线过程的安全性与规范性。
核心能力包括:
· 提供统一项目开发空间和可视化开发环境;
· 内置多类开发组件,支持复杂数据处理流程快速搭建;
· 支持主题域建模、维表/事实表设计及指标管理;
· 支持多维分析、上卷下钻、切片旋转等分析能力;
· 支持API自动生成与服务发布;
· 支持开发、测试、生产双沙箱管理机制。
4.4 自动化数据质量检测与治理能力
数据质量是数据治理体系有效运行的关键。奥腾多模态数据中台3.0基于DAMA数据管理理念,建立了覆盖规则配置、过程监测、异常识别、问题定位、结果反馈和报告输出的自动化数据质量管理体系,帮助组织持续掌握数据健康状态。
平台支持定时与实时两类质量检测模式,可针对关键业务数据开展持续监控。系统内置行业化、通用化质量规则模型,覆盖完整性、准确性、一致性、唯一性、及时性、规范性等主要质量维度,并支持根据行业和业务特点扩展个性化规则。
依托分布式计算引擎,平台可支撑大批量库表质量检测,保持稳定运行与高效处理。对于发现的质量问题,平台可自动形成详尽的质检报告,辅助定位问题来源和影响范围,为后续治理整改提供依据。
核心能力包括:
· 支持定时质检与实时质量监测;
· 内置符合DAMA要求的质量管理规则体系;
· 支持大批量库表质检和高性能运行;
· 自动生成质检结果与问题分析报告;
· 支持质量问题的闭环跟踪与治理。
4.5 AI结合,形成多模态智能中枢
奥腾多模态数据中台3.0在传统数据中台能力基础上深度融入人工智能技术,构建“AI+数据治理+数据服务”的多模态智能中枢,推动数据处理从规则驱动向智能驱动升级。
平台引入AI桥梁机制,实现大模型与企业数据之间的高效连接,增强数据理解、调用和应用的精准性。系统支持问答式建模、AI数据治理、AI数据质检、智能问数等能力,降低专业门槛,提升数据治理和数据开发效率。
在非结构化数据处理方面,平台支持文本分类、摘要提取、关键词生成、语义解析,以及OCR图片识别、图像训练和识别等能力,可对文档、图片、文本等数据开展智能处理。在此基础上,平台支持结构化与非结构化数据融合,通过标签自动生成、知识图谱展示等方式,实现多模态数据统一组织与智能关联分析。
核心能力包括:
· 构建大模型与企业数据之间的AI桥梁;
· 支持问答式建模、AI数据归集、AI治理、AI质检、智能问数;
· 支持文本分类、摘要、关键词提取、语义解析;
· 支持OCR识别、图像训练与识别;
· 支持结构化与非结构化数据融合治理与知识图谱展现。
4.6 多维度数据资产评估与运营管理能力
在完成数据汇聚与治理后,数据资产能否“看得见、管得住、用得好、可变现”,决定了数据中台的实际价值。奥腾多模态数据中台3.0提供多维度数据资产评估与运营能力,推动数据资源向数据资产转化。
平台支持资产集市管理,实现对表、指标、标签、接口、文档、图片等多类型资产的统一管理及元数据检索。通过完整的主外键关联关系和元数据血缘关系图谱,系统可清晰展示数据来源、加工路径、使用去向及任务追溯过程,提升资产透明度和管理可控性。
在价值评估方面,平台从编目完整性、质量健康度、敏感等级、模型调用、指标及API调用频次、更新频率等多个维度综合评估数据资产价值,识别高价值资产与“僵尸数据”,为数据优化、资源清理和资产运营提供依据。
同时,平台提供工单化管理机制,支持资产申请、审批、授权和使用留痕,实现数据资产管理的规范化和流程化。
核心能力包括:
· 实现资产集市统一管理与元数据检索;
· 支持数据血缘追踪与任务链路追溯;
· 支持多维度数据资产价值评估;
· 识别高价值数据与低活跃数据资产;
· 支持工单审批、申请留痕和运营管理。
4.7 数据防泄漏与全链路安全控制能力
数据安全是数据中台建设的底线能力。奥腾多模态数据中台3.0围绕数据归集、开发、共享、访问和流通全过程,建立了覆盖技术、权限、流程和场景的全链路安全防护体系,有效防止敏感信息泄露和违规使用。
在归集环节,平台支持敏感数据加密存储,并支持中心端归集策略继承源端前置机规则,确保归集人员无需直接接触生产数据。平台通过开发—生产双沙箱隔离机制,仅在开发空间中提供脱敏后的样本数据,开发完成后可一键发布至生产空间,既满足开发需求,也控制敏感数据暴露范围。
在服务与共享环节,平台支持API共享与分类分级管理,可根据申请者设定安全等级,并自动绑定系统分类分级规则,实现敏感数据的动态脱敏与按需开放。
在权限控制方面,平台提供丰富的系统权限、项目权限、数据权限管理能力,支持按行、按列、按角色进行精细授权,并支持权限回收与审计追踪,形成最小权限原则下的安全管控体系。
核心能力包括:
· 支持敏感数据加密存储与安全归集;
· 支持开发—生产双沙箱隔离;
· 支持分类分级、动态脱敏和API共享控制;
· 支持系统、项目、数据多层级权限管理;
· 支持按行按列细粒度授权和权限回收。
4.8 面向GDPR与PIPL的合规治理能力
随着数据安全与个人信息保护要求不断提升,企业的数据管理平台不仅要具备技术能力,更要满足监管要求。奥腾多模态数据中台3.0围绕GDPR(《通用数据保护条例》)与PIPL(《个人信息保护法》)等法规要求,构建了面向全生命周期的数据合规治理体系。
平台支持对数据的知情权与决定权管理,通过详细的数据发现、资产可视化和数据血缘追踪,帮助组织识别数据来源、处理路径及使用情况,完整记录每次访问和操作行为,满足审计与问责要求。
在被遗忘权与拒绝画像权方面,平台支持个人信息条件筛选、敏感数据分类分级、动态脱敏、个人账号匿名化、逻辑删除与归档等能力,协助企业落实个人信息权益保护要求。
在同意与合法性基础管理方面,平台通过主题域、项目空间和数据使用范围控制,规范数据采集、处理和使用的边界,降低违规使用风险。配合最小必要原则、访问审批机制、脱敏与加密技术,以及完整的申请审批体系,平台实现从制度到技术的合规闭环支撑。
核心能力包括:
· 支持数据发现、可视化和血缘追踪;
· 支持访问记录、审计日志和操作留痕;
· 支持匿名化、逻辑删除、动态脱敏等隐私保护机制;
· 支持主题域、项目空间和数据用途边界管理;
· 支持最小必要访问控制与全流程审批。
4.9 数据共享与服务化能力
奥腾多模态数据中台3.0具备完善的数据共享与服务化输出能力,可将数据资产、开发成果和分析结果快速封装为标准化接口服务,支撑跨部门、跨系统、跨组织的数据流通与协同应用。平台支持通过配置方式快速生成共享接口,支持库表转API、代理外部API等多种接口模式,并具备API自动生成能力,可有效提升数据服务发布效率和共享能力。在接口管理方面,平台支持申请、测试、发布、上线、下线和维护等全流程管理,确保数据共享过程规范可控。同时,平台提供动态签名验签、身份鉴权、白名单控制、调用监控、异常语句监测和敏感数据扫描等安全机制,全面保障接口服务的安全性与可管理性。
主要能力包括:
· 支持通过配置方式快速生成数据共享接口;
· 支持库表转API、代理外部API等多种接口模式;
· 支持基于数据表、主题模型和分析结果自动生成API;
· 支持接口申请、测试、发布、上线、下线和维护等全流程管理;
· 支持动态签名验签、鉴权控制和白名单管理;
· 支持接口调用监控、异常语句监测和敏感数据扫描。
4.10业务指标建模能力
奥腾多模态数据中台3.0具备完善的业务指标建模能力,可围绕企业经营分析、业务管理和决策支持需求,构建统一、规范、可复用的指标体系。平台支持基于业务规划开展数据调研与分析需求梳理,对数据域进行合理划分,并在可视化界面中采用Kimball维度建模理论开展建模设计。通过建立实体之间的业务关联,形成维度表与事实表的规范化模型结构,在明确业务粒度的基础上,依次完成维度确认、事实确认和模型构建,支撑业务主题数据的统一组织与管理。
平台支持原子指标、派生指标和复合指标的分层建设,能够将业务规则、统计逻辑和分析口径沉淀为统一的指标资产,提升指标定义的一致性和复用能力。在分析应用层面,平台支持构建三维Cube分析模型,提供上卷、下钻、切片、切块等多维分析能力,满足多角度、多层次的业务分析需求。同时,平台具备数据异常探查和数据探索分析能力,可辅助用户及时发现数据波动、异常变化及潜在业务问题,增强数据分析的深度与敏捷性。
依托可视化建模页面,平台可直接设计维度表和事实表,显著减少SQL语句编写工作量,提高数仓建设效率,降低建模和开发过程中的人工错误率。通过更加直观的模型展示方式,团队成员能够更清晰地理解数据仓库结构与业务关系,提升协作效率;同时也降低了数据仓库使用门槛,使非技术背景用户能够更便捷地参与数据应用与分析,持续优化整体使用体验。
主要能力包括:
· 支持基于业务规划开展数据调研、分析需求梳理和数据域划分;
· 支持采用Kimball维度建模理论进行业务模型设计;
· 支持基于业务实体关系建立维度表与事实表模型;
· 支持在明确粒度基础上完成维度确认、事实确认和模型构建;
· 支持通过可视化页面设计维度表和事实表,减少SQL编写;
· 支持构建统一的业务指标体系;
· 支持原子指标、派生指标和复合指标的分层定义与管理;
· 支持构建三维Cube分析模型;
· 支持上卷、下钻、切片、切块等多维分析能力;
· 支持数据异常探查和数据探索分析;
· 支持提升数仓建设效率、降低开发错误率并增强团队协作能力;
· 支持降低数仓使用门槛,提升非技术用户的数据应用体验。
4.11 标签计算与管理能力
奥腾多模态数据中台3.0具备统一的标签计算与管理能力,可面向结构化数据、文本数据和图片数据提供标签生成、管理、服务化输出及全生命周期运营支撑。平台支持对文本和图片内容进行自动化标签生成与人工标注,也支持对结构化数据开展自动打标与人工打标,形成覆盖多模态数据对象的标签体系,为用户画像、群体洞察、精准服务、业务分析和智能应用提供统一的数据表达基础。
针对结构化数据,平台围绕业务标签建设提供完整的标签建模与管理能力,支持对象管理、业务限定、统计限定、标签定义与生成、群组管理、单体画像等功能。平台可结合指标预警、标签管理、图谱关联以及NLP语义解析能力,对业务对象进行语义化抽象与特征提炼,帮助机器更准确地理解业务语义,形成高度凝练、符合业务认知的摘要式表达结果,从而更直观地展示数据成果与对象特征。
作为标签建设与运营的统一支撑平台,标签管理平台可为标签的创建、审核、发布、使用、上下线及维护等全生命周期提供基础工具支撑,并以业务场景需求为导向、以标签服务能力输出为目标,持续推进标签整合沉淀、标签体系构建与标签服务响应的常态化运营。通过统一的标签标准、统一的计算口径和统一的管理流程,平台能够提升标签资产复用能力和业务应用支撑能力,加快标签在不同应用场景中的落地使用。
平台内置完善的标签计算工具体系,覆盖标签管理、标签审核、标签计算、属性标签、统计标签、规则标签、SQL标签、人工标签、多级标签等功能模块,可支撑标签从规则定义、生产计算、质量校验到服务应用的完整闭环管理,满足企业在精细化运营、智能分析和业务创新中的标签化数据建设需求。
主要能力包括:
· 支持对文本数据自动生成标签和人工标注;
· 支持对图片数据自动生成标签和人工标注;
· 支持对结构化数据自动打标和人工打标;
· 支持构建统一的多模态标签体系;
· 支持结构化数据业务标签建设;
· 支持对象管理、业务限定、统计限定、标签定义与生成、群组管理、单体画像等功能;
· 支持结合指标预警、图谱和NLP语义解析开展标签提炼;
· 支持形成符合业务语义的摘要化标签表达;
· 支持标签创建、审核、发布、使用、上下线和维护等全生命周期管理;
· 支持标签整合沉淀、标签体系构建和标签服务响应的常态化运营;
· 支持标签管理、标签计算、工厂标签、手工标签、标签历史、标签图谱、多级标签等功能模块;
· 支持标签资产复用与多场景服务化输出。
4.9 多模态数据检索能力
奥腾多模态数据中台3.0具备统一的多模态数据检索能力,可面向结构化数据、文本数据、图片数据、音视频数据及其衍生内容,提供跨类型、跨来源、跨语义的数据查询与关联检索服务。平台通过构建统一的数据索引、元数据组织和语义关联机制,实现对多模态数据对象的集中管理与高效检索,帮助用户从海量异构数据中快速定位所需信息,提升数据发现、数据使用和业务响应效率。
平台支持基于关键词、属性条件、业务标签、语义内容等多种方式进行检索,可针对不同数据类型提供差异化检索能力。对于结构化数据,平台支持按照字段、条件组合、标签、对象关系等方式进行精确查询与组合筛选;对于文本数据,支持全文检索、语义检索、主题检索和摘要定位;对于图片数据,支持基于图片属性、内容特征、标签信息及相似度进行检索;对于音视频数据,可基于元数据、文本转写结果、时间片段信息和内容标签进行定位与查询,从而形成统一的多模态检索入口。
在检索应用层面,平台不仅支持单一模态的数据查询,还支持多模态关联检索与结果联动展示。例如,用户可通过一个业务对象、一个标签、一段文本描述或一张图片,在结构化信息、文本记录、图片资料、音视频片段等多种数据对象之间进行关联检索,快速获取与目标对象相关的全景信息。通过图谱关系、标签体系和语义解析能力,平台进一步增强数据之间的关联发现能力,提升检索结果的准确性、完整性和可理解性。
主要能力包括:
· 支持结构化数据、文本数据、图片数据、音视频数据等多模态数据统一检索;
· 支持跨来源、跨类型、跨语义的数据集中查询与关联发现;
· 支持基于关键词、属性条件、业务标签、语义内容的多方式检索;
· 支持结构化数据的字段查询、条件组合筛选、标签检索和对象关系检索;
· 支持文本数据的全文检索、语义检索、主题检索和摘要定位;
· 支持图片数据的属性检索、标签检索、内容检索和相似图片检索;
· 支持音视频数据基于元数据、转写文本、时间片段及内容标签进行检索;
· 支持多模态关联检索和检索结果联动展示;
· 支持围绕业务对象开展全景信息检索与关联呈现;
· 支持通过可视化界面进行检索条件配置、结果查看和上下文追踪;
4.12 安全与运维
提供全方位的安全保障和智能化的运维能力,确保系统稳定运行。
• 身份认证与权限控制: 支持多种认证方式,细粒度权限管理
• 数据安全: 数据加密、脱敏、访问控制
• 系统安全: 漏洞扫描、入侵检测、安全审计
• 合规管理: 自动生成合规报告
• 智能监控: 全栈监控、智能告警
• 自动化运维: 自动化部署、备份恢复、故障自愈
4.13 小结
总体来看,奥腾多模态数据中台3.0已不再局限于传统意义上的数据汇聚与开发平台,而是面向企业数字化与智能化需求,构建形成了集多模态数据接入、存储计算、治理管控、标签管理、检索服务、智能分析、安全防护与合规管理于一体的企业级多模态智能数据基础设施。
平台围绕结构化数据、文本数据、图片数据、音视频数据等多类型数据资源,建立了统一的数据接入机制、统一的处理与计算能力、统一的治理标准以及统一的数据服务体系,能够有效打通多源异构数据之间的壁垒,提升数据汇聚、处理、组织、分析和应用的整体效率。通过元数据管理、质量治理、标准规范、标签计算、知识组织、多模态检索和语义理解等能力,平台持续推动数据从“可汇聚、可治理”向“可理解、可服务、可运营”演进,促进数据资源向数据资产转化。
同时,平台深度融合人工智能与多模态处理技术,通过OCR识别、ASR语音转写、NLP语义解析、图谱关联、智能标签、内容抽取和摘要生成等能力,增强机器对业务对象和数据内容的理解能力,使平台不仅能够承载数据,更能够理解数据、关联数据、表达数据,为业务场景提供更精准、更高效的数据支撑。
在此基础上,平台还通过完善的权限控制、安全审计、隐私保护和合规管理机制,保障数据在采集、加工、共享、服务和应用全过程中的安全可控与合规可追溯,确保数据价值释放建立在安全可信的基础之上。
综上,奥腾多模态数据中台3.0通过统一的数据能力底座和标准化、体系化的运营治理机制,帮助企业打通数据孤岛、提升数据质量、沉淀数据资产、强化数据服务、释放数据价值,为企业数字化转型、智能化升级和数据要素化运营提供坚实支撑。
第五章 技术优势
5.1 多模态数据处理技术
奥腾科技多模态中台3.0内置自研多模态处理引擎,支持结构化、文本、图片、音频、视频等多类型数据的统一解析与处理,具备以下核心技术优势:
· 多模态融合解析:采用深度学习算法,实现结构化与非结构化数据的深度融合分析,能够关联文本、图片、音频等数据,挖掘隐藏在多类型数据中的关联关系与价值;
· 高精度解析能力:文本处理支持高精度分词、实体识别、情感分析,准确率达98%以上;图片处理支持人脸检测、物体识别、场景识别;音频处理支持高保真转写、语音识别,适配多场景语音数据;
· 高效处理性能:采用分布式并行处理技术,支持海量多模态数据的快速解析与处理,单节点可支持每秒万级数据处理,大幅提升处理效率;
· 自适应适配:能够自动适配不同格式、不同来源的多模态数据,无需人工手动配置解析规则,降低使用门槛;支持多语言文本、多格式图片/音频/视频的自适应解析。
5.2 自主可控的核心技术
产品核心技术100%自主研发,无第三方依赖,全面适配信创体系,具备以下优势:
· 自研多模态引擎:多模态数据采集、解析、治理、开发引擎均为自主研发,可根据业务需求灵活优化,支持个性化定制;
· 信创全栈适配:全面适配国产硬件、操作系统、数据库,通过多项信创产品互认测试,实现国产化替代落地,保障技术自主可控;
· 核心模块自主研发:数据治理、数据开发、安全管控、接口服务等核心模块均自主研发,可自主掌控产品迭代节奏,快速响应用户需求;
· 开源技术可控:基于开源技术进行二次研发与优化,去除冗余功能,修复安全漏洞,确保开源技术的可控性与安全性。
5.3 智能化与自动化技术
产品融入人工智能、自动化技术,大幅提升数据处理与管理效率,降低使用门槛:
· 自动化治理:实现多模态数据编目、质量检测、分类分级、清洗修复等流程自动化,减少人工干预,提升治理效率;
· 智能化推荐:基于用户行为与业务需求,智能推荐数据资产、标签、接口等,助力用户快速找到所需数据与服务;
· 低代码智能化:支持SQL自动生成、ETL流程自动编排、接口自动生成,业务人员无需专业技术即可完成多模态数据开发与应用;
· 智能预警:针对数据质量异常、接口故障、安全风险等情况,自动识别并告警,助力用户快速响应与解决问题。
5.4 高性能与高扩展性
基于云原生与微服务架构,产品具备高性能与高扩展性,能够适配不同规模组织的业务需求:
· 高性能处理:支持海量多模态数据的快速归集、治理与开发,单集群可支持PB级数据存储与处理,查询响应时间毫秒级;
· 弹性伸缩:基于Kubernetes容器化部署,支持资源弹性伸缩,可根据数据量与业务负载自动分配计算、存储资源,降低运维成本;
· 可插拔扩展:各功能模块采用可插拔设计,可按需集成多模态处理引擎、算法模型、安全模块等,适配不同场景的个性化需求;
· 跨平台适配:支持私有化、公有云、混合云等多种部署模式,可跨平台运行,适配不同组织的IT架构需求。
5.5 全流程安全合规技术
基于零信任架构,构建全流程安全合规体系,保障多模态数据安全与合规:
· 精细化权限管控:实现用户、角色、数据、功能的精细化权限管控,基于最小权限原则,确保数据访问安全;
· 多维度数据脱敏:支持结构化与非结构化数据的动态脱敏、静态脱敏,适配不同场景的脱敏需求,保障敏感数据安全;
· 全流程审计追溯:实现数据全生命周期操作审计,所有数据操作、接口调用、审批流程均可追溯,满足合规审计要求;
· 国密级加密:支持国密算法(SM2、SM3、SM4),实现数据传输、存储的国密级加密,保障数据安全合规。
5.6 智能化运维
提供全方位的智能运维能力,降低运维成本,提高运维效率。
· 全栈监控:对系统各个层面进行全方位监控
· 智能告警:AI驱动的智能告警和异常检测
· 预测性维护:提前发现潜在问题,预防故障发生
· 自动化巡检:自动化系统巡检,减少人工干预
· 日志分析:智能日志分析和问题定位
· 性能优化:基于AI的性能优化建议
第八章 服务保障
8.1 实施流程
奥腾科技依托二十年企业级IT服务经验,建立了标准化、规范化的实施流程,确保奥腾多模态数据中台3.0快速落地、高效上线,结合附件中产品实操场景,实施流程分为以下五个阶段:
· 需求调研与规划(1-2周):深入了解用户业务需求、IT架构、数据现状,结合附件中产品功能模块,明确多模态数据归集范围、治理目标、开发需求与应用场景,制定个性化实施规划方案,明确实施节点、责任分工与交付物。
· 环境部署与适配(2-3周):根据实施规划,完成基础设施部署、产品安装与配置,适配用户IT架构与信创环境,完成数据库驱动适配、多源数据对接配置,搭建测试环境与生产环境,确保产品稳定运行。
· 多模态数据归集与治理(3-6周):协助用户完成多源多模态数据的归集,配置采集规则与预处理流程;开展数据标准梳理与制定,完成数据元管理、元数据采集、数据质量管控、数据编目、分类分级等治理工作,构建标准化数据资产目录,适配附件中元数据管理、数据编目等核心治理功能的落地。
· 开发与应用落地(4-8周):基于用户需求,完成数据建模、ETL开发、指标体系构建、标签开发、关系图谱构建、接口开发等工作;部署标准化应用模板,或定制开发个性化应用;完成用户培训,指导用户熟练使用产品功能(如数据查询、审批流程、接口调用等),适配附件中开发、应用、审批等全流程功能的落地。
· 测试与运维保障(1-2周):开展全面测试(功能测试、性能测试、安全测试、合规测试),修复潜在问题;交付实施文档、操作手册、培训资料等;正式上线产品,提供常态化运维支持,确保产品稳定运行,适配用户业务需求。
8.2 服务保障体系
奥腾科技建立了“全生命周期、全方位”的服务保障体系,为用户提供专业、高效、贴心的服务,确保产品持续发挥价值:
· 技术支持服务:提供7×24小时技术支持,通过电话、邮件、远程协助等方式,快速响应用户问题,解决产品使用过程中的故障与难题;针对附件中产品实操相关的疑问,提供专项指导。
· 常态化运维服务:提供定期巡检、系统优化、漏洞修复、版本升级等运维服务,确保产品性能稳定、功能完善;协助用户完成数据备份、日志管理、驱动更新等日常运维工作。
· 培训服务:提供分层培训(管理员培训、技术人员培训、业务人员培训),内容涵盖产品功能操作、多模态数据治理、开发技巧、安全合规等,结合附件中产品实操场景,确保不同岗位用户熟练使用产品;提供定制化培训服务,适配用户个性化需求。
· 定制化服务:基于用户业务需求,提供个性化定制开发、功能优化、场景适配等服务,助力用户实现多模态数据价值最大化;协助用户完成数据目录发布、审批流程配置等个性化需求落地。
· 长期合作服务:建立长期合作机制,定期回访用户,了解用户业务发展与产品使用情况,收集用户需求,持续优化产品功能,助力用户实现数字化转型目标;提供行业最佳实践分享,协助用户优化多模态数据管理与应用模式。
第九章 结语
在数字化转型进入深水区、多模态数据成为核心生产要素的今天,奥腾多模态数据中台3.0凭借多模态一体化、自主可控、智能便捷、安全合规的核心优势,结合二十年IT服务经验与海量项目实操沉淀,全面覆盖附件中数据管理、治理、开发、应用、安全等全流程功能,打破多源数据壁垒,激活多模态数据价值,为政府机构、大型企业、行业合作伙伴提供坚实的数据底座支撑。
奥腾科技将始终秉持“智聚·协同未来”的价值主张,坚守自主创新理念,持续优化产品功能,提升服务质量,助力更多组织实现数据资产化、治理自动化、应用便捷化、安全合规化,破解数字化转型痛点,推动数据价值最大化,与合作伙伴携手共赢数字化未来。
评论