奥腾多模态AI数据中台(Ottomi-Nexus 3.0)能力介绍
Ottomi Nexus 是一个基于 DataOps 思想打造的全链路数据处理平台,采用单包一体化交付、容器化部署,面向政企数据治理、数据开发、数据资产运营、多模态 AI 数据管理与可信数据空间建设等场景,提供从数据接入、标准治理、质量管理、开发建模、任务调度、资产服务到 AI 智能应用的一体化能力。
功能模块可划分为以下几大板块:
一、管理中心
| 子模块 | 核心能力 |
|---|---|
| 账号管理 | 成员管理、组织单位管理、角色管理 |
| 权限体系 | RBAC + ABAC,6 级粒度:系统 → 项目 → 数据源 → 表 → 行 → 列 |
| 行级权限 | 细粒度数据行访问控制 |
| 日志管理 | 全操作审计,防篡改日志 |
| AI 助手配置 | 大模型接入配置、API Key 管理 |
| 系统配置 | 通知渠道配置,支持站内信、邮件、企业微信等 |
二、业务规划
| 子模块 | 核心能力 |
|---|---|
| 数据分层设计 | ODS 原始层 → DWD 标准明细层 → ADS 应用指标层 |
| 业务板块与主题域 | 板块创建、主题域划分,支撑企业级数据架构规划 |
| 项目空间管理 | 项目创建、计算源管理、成员管理 |
| 双沙盒架构 | 开发沙盒 / 生产沙盒强隔离模式,或单沙盒一体化模式 |
| 三种部署模式 | 大型集团级标准双沙盒、中等混合灵活组合、轻量一体化极简部署 |
三、数据接入引擎
数据接入引擎面向企业多源异构数据归集场景,支持数据库、CDC、接口、文件等多种数据接入方式,实现结构化、半结构化以及多模态数据资源的统一纳管和归集。
| 子模块 | 核心能力 |
|---|---|
| 源端数据库管理 | 注册异构数据源,支持 MySQL、PostgreSQL、Oracle、DB2、SQL Server、达梦、人大金仓、OceanBase、TiDB、ArgoDB、Greenplum、ClickHouse、Doris、StarRocks、GBase、Hive 等 40+ 数据源 |
| 数据库类型管理 | 通过 JDBC 驱动可扩展,支持企业自定义数据源接入 |
| 库表抽取 | 支持库表级数据抽取,覆盖全量同步、增量同步、差异更新同步等场景 |
| CDC 同步 | 支持毫秒级延时的数据变更捕获,覆盖 MySQL-CDC、Oracle-CDC、PostgreSQL-CDC、SQL Server-CDC、MongoDB-CDC 等 |
| 接口归集 | 通过界面配置自动生成接口归集任务,并从源端 API 获取数据;支持 GET、POST、PATCH 等 HTTP 请求方法 |
| 接口参数配置 | 支持 URL 参数、Body 参数、请求头配置;支持参数转换,包括无需转换和 Java 脚本转换 |
| Body 参数格式 | 支持 form-data、application/json、text/plain 等多种 BODY 参数格式 |
| 参数来源 | 接口归集参数可来自自定义配置,也可来自库表配置,实现动态参数化采集 |
| 文件归集 | 支持多种格式数据文件导入,包括 csv、txt、xlsx、lsx 等,并将支持 json、xml、orc 文件上传资源 |
| 样本规则 & 样本引擎 | 5 种样本生成策略:绑定样本规则、表达式计算、外表值域生成、基础类型生成、按原表数据;三层规则体系:基础规则、业务规则、特殊规则;支持隐私计算转换,样本数据可参与计算 |
| 资源透视 | 数据源浏览、表结构查看、DDL 复制、数据查询 |
| 元数据管理 | 自动编目、资产上下架 |
| AI 自动编目 | AI 辅助源端资产自动编目与聚合 |
3.1 数据归集能力说明
3.1.1 库表抽取
库表抽取面向传统业务系统数据库同步场景,支持将源端数据库中的表数据同步到平台指定目标端,适用于历史数据初始化、周期性数据归集、业务系统数据汇聚等场景。
支持方式包括:
- 全量同步:一次性抽取源表全部数据,适用于初始化装载、历史数据迁移。
- 增量同步:基于时间字段、主键、版本号等增量标识,仅同步新增或变化数据。
- 差异更新同步:对源端与目标端数据进行差异识别,并执行新增、更新等同步动作。
3.1.2 CDC 同步
CDC 同步通过捕获源端数据库的变更日志,实现低延迟数据变更同步,适用于实时数仓、实时指标、业务系统异步解耦、数据湖实时入湖等场景。
支持能力包括:
- 毫秒级数据同步延时;
- 支持新增、修改、删除等变更事件捕获;
- 支持 MySQL-CDC、Oracle-CDC、PostgreSQL-CDC、SQL Server-CDC、MongoDB-CDC;
- 可与实时计算、实时质量校验、实时数据服务等模块联动。
3.1.3 接口归集
接口归集是一个通过界面化配置自动生成接口采集任务,并从源端系统 API 自动获取数据的工具。用户无需编写复杂代码,即可完成第三方接口数据归集。
支持能力包括:
- 支持 GET、POST、PATCH 等 HTTP 请求方法;
- 支持 URL 参数、Body 参数、请求头配置;
- 支持参数转换,包括无需转换和 Java 脚本转换;
- 支持 form-data、application/json、text/plain 等 Body 参数格式;
- 参数来源支持自定义配置,也支持来自库表配置;
- 可用于 SaaS 系统、业务系统、政务接口、第三方开放平台等接口数据采集场景。
3.1.4 文件归集
文件归集面向批量文件导入和外部文件资源纳管场景,支持将本地或远程文件导入平台并转化为可处理的数据资源。
支持格式包括:
- 已支持:csv、txt、xlsx、lsx 等;
- 规划支持:json、xml、orc 等文件上传资源;
- 可与数据标准、质量校验、数据开发、资产目录等模块联动,实现文件数据的规范化治理。
四、研发中心 · 数据开发
核心能力:可视化拖拽式 ETL 画布 + AI 智能助手“对话即建模”。
4.1 开发组件库(9 大类 95+ 组件)
| 类别 | 数量 | 代表组件 |
|---|---|---|
| 实时输入 | 7 | Kafka、MySQL CDC、Oracle CDC、SQL Server CDC、MongoDB CDC、PostgreSQL CDC、EventStore |
| 实时输出 | 3 | 单表输出、StarRocks 输出、Kafka 输出 |
| 离线输入 | 14 | 单表、API、MongoDB、StarRocks、Excel、CSV、XML、Text、S3、JSON、逻辑表、FTP、SFTP、RabbitMQ |
| 离线输出 | 9 | Text、Excel、CSV、XML、JSON、ORC、S3、FTP、SFTP |
| 数据转换(实时/离线通用) | 19 | 异常值检测、唯一 ID 生成、列转行、NULL 替换、数据过滤、值替换、字符串修剪/大小写/拆分/拼接/切片、字段过滤、字段名映射、Java 高级转换、JsonPath 提取、函数计算、数据加解密、数据脱敏 |
| 离线脚本 | 11 | 脚本管理、SQL、Shell、Python、Flink、MR、FlinkSQL、HQL、DataX、Sqoop、Flink JAR |
| 离线数据运算 | 3 | 聚合、去重、排序 |
| 离线多表同步 | 1 | 多表批量同步 |
| 离线数据融合 | 1 | 表合并 |
4.2 内置函数库(84+ 函数)
| 类别 | 数量 | 示例 |
|---|---|---|
| 数值函数 | 27 | ABS、CEIL、FLOOR、ROUND、MOD、SQRT、EXP、LN、LOG、POWER、RAND 等 |
| 字符串函数 | 28 | CONCAT、SUBSTR、TRIM、REPLACE、REGEXP_LIKE、REGEXP_REPLACE、LEFT、RIGHT、LPAD、RPAD 等 |
| 时间函数 | 若干 | 日期格式化、日期计算、时间差等 |
| 系统函数 | 若干 | 系统变量、环境信息等 |
4.3 AI 画布助手
- 内置在可视化建模画布侧边的智能助手对话框;
- 自然语言描述 → 自动解析 → 画布自动完成数据源选取、算子拖拽、参数配置、连线编排;
- 支持 AI 模型接入,包括云端模型和本地私有化模型;
- 覆盖数据归集、数据开发、数据质检等 AI 应用场景;
- 帮助数据工程师、数据分析师和业务人员降低数据开发门槛。
五、数据标准管理
数据标准模块整体划分为 标准管理、参考数据、通用配置、落标评估 四大核心功能板块,全面覆盖行业标准层级搭建、业务数据标准全生命周期管控、标准资源沉淀、标准化模板配置、智能特征识别、数据自动对标、全域合规扫描、落标效果评估与执行追溯全流程能力。
该模块既满足政企传统结构化数据统一标准化治理需求,同时也将适配文本、图像、音视频等多模态 AI 数据规范化管控场景,为自动化建模提供干净、统一、口径一致、格式合规的高质量底层数据支撑,从源头解决企业数据口径混乱、字段命名杂乱、编码规则不统一、标准落地难、治理效果无量化依据等行业普遍痛点。
| 子模块 | 核心能力 |
|---|---|
| 标准管理 | 支持行业标准、企业标准、业务标准、字段标准、编码标准等标准体系建设 |
| 参考数据 | 沉淀统一参考数据资源,如行政区划、行业分类、证件类型、状态码、枚举值等 |
| 通用配置 | 支持标准模板、命名规则、编码规则、数据类型映射、标准识别规则等配置 |
| 落标评估 | 支持数据自动对标、标准符合性检测、落标率统计、问题追溯与整改闭环 |
5.1 标准管理
标准管理用于构建企业级数据标准体系,支撑从标准定义、发布、引用到变更的全生命周期管理。
核心能力包括:
- 支持行业标准、企业标准、业务标准等多层级标准体系搭建;
- 支持字段名称、中文名称、英文名称、数据类型、长度、精度、值域、编码规则、口径说明等标准属性维护;
- 支持标准分类、标准版本、标准状态管理;
- 支持标准发布、下线、变更留痕;
- 支持标准与数据资产、数据模型、数据质量规则的联动。
5.2 参考数据
参考数据用于沉淀企业统一使用的基础编码、枚举、字典和值域资源,解决不同系统之间编码不一致、含义不统一的问题。
核心能力包括:
- 支持行政区划、组织机构、行业分类、证件类型、人员类型、业务状态码等参考数据维护;
- 支持参考数据分组、版本、状态管理;
- 支持参考数据与字段标准、质量规则、数据开发任务联动;
- 支持统一值域校验,保障业务系统和数据平台口径一致。
5.3 通用配置
通用配置用于支撑标准化治理过程中的规则化、模板化、自动化能力。
核心能力包括:
- 标准模板配置;
- 字段命名规范配置;
- 数据类型映射配置;
- 编码规则配置;
- 智能特征识别规则配置;
- 标准匹配规则配置;
- 多场景、多行业标准适配配置。
5.4 落标评估
落标评估用于衡量数据标准在真实数据资产中的执行效果,帮助企业从“有标准”走向“标准真正落地”。
核心能力包括:
- 数据资产自动对标;
- 字段名称、字段类型、字段长度、字段注释、值域范围等标准符合性扫描;
- 全域合规扫描;
- 标准落标率统计;
- 问题清单生成;
- 整改跟踪与执行追溯;
- 标准执行效果量化评估。
六、质量管理中心
质量管理中心基于 DAMA 标准,围绕完备性、一致性、准确性、及时性、唯一性、规范性 6 大质量维度构建规则体系,支持定时批量质检、实时流式质检和用户自定义质量规则。
| 规则类别 | 数量 | 示例 |
|---|---|---|
| 单表结构检查 | 9 | 表非空、时间戳字段、字段注释齐全、主键完整性、重复数据、引用完整性、最后更新时间合规、增量存在性、增量异常 |
| 单表字段内容检查 | 50+ | 空值、全角字符、值域范围、字段长度、日期格式、手机号、身份证、护照、银行卡、军官证、邮箱、统一社会信用代码、行政区划代码、车牌、血型、VIN 码、税号等 |
| 单表条件检查 | 若干 | 业务条件组合校验 |
| 多表/全库结构检查 | 若干 | 跨表一致性、全库规范性 |
| 多表动态检查 | 若干 | 跨表动态逻辑校验 |
| 实时数据检查 | 若干 | 实时流数据质量监控 |
核心能力包括:
- 支持质量规则配置、规则分组、规则模板管理;
- 支持离线批量质量校验;
- 支持实时数据质量监控;
- 支持质量任务调度和异常告警;
- 支持质量报告生成;
- 支持质量问题闭环处理;
- 支持与数据标准模块联动,基于标准自动生成部分质量规则。
七、数据资产管理
| 子模块 | 核心能力 |
|---|---|
| 资产市场 | “数据超市”,支持浏览、搜索、申请数据资产 |
| 数据源表资产 | 资产编目、业务分类、血缘追踪、多维评价 |
| 指标体系 | 原子指标、衍生指标、复合指标,构建三级指标体系 |
| API 资产 | API 浏览、申请、审批 |
| 文件管理 | 文档存储、上传、归档 |
| 智能识别 | OCR 识别、文档摘要、关键词提取,面向图片、音频、视频、文档等多模态数据 |
数据资产管理中心用于实现数据资源资产化、资产服务化和服务价值化,帮助企业构建统一的数据资产目录、数据资产市场和资产运营体系。
八、数据共享服务中心
| 子模块 | 核心能力 |
|---|---|
| API 自动生成 | 向导式将数据表一键封装为 RESTful API |
| API 市场 | API 发布、注册、版本管理、流量监控 |
| 动态脱敏 | API 调用时自动脱敏 |
| 审批流程 | 数据申请 → 审批 → 订阅 → 授权全生命周期 |
| 接口市场 | API 上下线管理,可自定义审批流 |
数据共享服务中心用于将治理后的数据资产以 API、接口市场等形式对外提供服务,支持数据申请、审批、授权、调用、监控、下线的全生命周期管理。
九、数据安全与合规
| 子模块 | 核心能力 |
|---|---|
| 分类分级 | 自动敏感扫描与数据分类,支持 S1-S5 分级 |
| 加密 | 支持 SM2/SM3/SM4 国密算法 |
| 数据脱敏 | 4 种脱敏算法:字符掩码、加密 SM4、HASH、字符替换 |
| 双沙盒隔离 | “数据黑盒 · 模型白盒”——生产沙盒数据不可见,开发沙盒仅使用样本数据,模型一键发布到生产 |
| 全链路血缘 | 源端到应用端完整追溯 |
| 防篡改审计 | 全操作记录与哈希存证 |
| 合规 | 符合《数据安全法》《个人信息保护法》等要求 |
数据安全与合规模块贯穿数据接入、开发、治理、共享和应用全过程,保障数据可用不可见、可控可审计、可追溯可合规。
十、可视化数仓建模
| 子模块 | 核心能力 |
|---|---|
| Kimball 维度建模 | 可视化维度表、事实表构建 |
| 拖拽式 Cube 设计 | 多维 Cube,支持切片、上卷、下钻 |
| 三级指标体系 | 原子指标 → 衍生指标 → 复合指标 |
| 库表无关 | 支持任意兼容数据库作为数仓后端,如 MySQL、Oracle、Doris、Greenplum、Hive 等 |
可视化数仓建模能力帮助企业以低代码方式构建主题域模型、维度模型、事实模型和指标体系,降低传统数仓建模门槛。
十一、BI 分析与可视化
| 子模块 | 核心能力 |
|---|---|
| 内置 BI | 基于开源 DataEase 集成 |
| 可视化仪表盘 | 拖拽式报表创建,无需编码 |
| 图表类型 | 柱状图、折线图、饼图、仪表盘、数据大屏 |
| 自助分析 | 面向业务人员的友好分析界面 |
BI 分析与可视化模块面向业务分析、经营监控、指标看板、数据大屏等场景,为业务用户提供自助式数据分析能力。
十二、AI 智能中心
| 子模块 | 核心能力 |
|---|---|
| 大模型配置 | 对接公有云 LLM,如通义千问、文心一言等,或私有化部署模型 |
| AI Agent | 数据归集智能体、数据开发智能体,可编辑 Prompt 模板 |
| LangChain 编排 | 多工具 + LLM 协同工作流 |
| 计划中 | API、MCP 模型上下文协议扩展、Skills 插件机制 |
AI 智能中心为平台提供统一的大模型接入、智能体编排和智能辅助能力,可支撑数据归集、数据开发、数据质检、数据资产编目、知识问答等智能化场景。
十三、可以升级为可信数据空间
| 子模块 | 核心能力 |
|---|---|
| 零信任架构 | 连接器管理、自动部署 |
| 样本引擎 | 差分隐私、合成数据、格式保持加密 |
| 空间管理 | 独立数据空间、跨空间合规共享 |
| 区块链存证 | 防篡改日志 + 区块链证据存储 |
Ottomi Nexus 可进一步升级为可信数据空间底座,支持多主体之间的数据安全流通、合规共享和可信协作。
十四、任务调度引擎
任务调度引擎负责平台内数据归集、数据开发、质量检查、标准落标评估、数据同步、脚本执行等任务的统一编排、调度、执行和监控。
| 子模块 | 核心能力 |
|---|---|
| DolphinScheduler 集成 | 提供分布式任务调度能力,支持复杂任务流编排 |
| 调度配置 | 支持按秒、分、时、天等周期配置 |
| 依赖编排 | 支持复杂工作流上下游依赖编排 |
| 监控告警 | 支持运行日志监控、任务状态监控与异常告警 |
| 并行计算引擎 | 引用 SeaTunnel 的主机、引擎节点、资源组概念,实现跨主机、多节点并行计算 |
| 资源组调度 | 支持业务任务指派资源组,由平台自动调度资源组内所有跨主机计算节点并行执行 |
14.1 分布式任务调度
平台集成 DolphinScheduler,提供任务流编排、定时调度、依赖管理、失败重试、补数执行、运行监控等能力。
典型能力包括:
- 支持数据同步任务、ETL 任务、SQL 脚本任务、Shell/Python/Flink 等脚本任务统一调度;
- 支持任务上下游依赖;
- 支持任务失败重试;
- 支持任务补跑;
- 支持周期性任务配置;
- 支持任务运行日志和执行状态监控。
14.2 并行计算引擎
平台内置并行计算引擎,引用 SeaTunnel 的 主机、引擎节点、资源组 等核心概念,对数据同步、数据转换、批量处理等业务任务提供跨主机、跨节点的并行执行能力。
其核心执行模式为:
业务任务 → 指派资源组 → 自动调度组内所有跨主机计算节点并行执行
具体说明如下:
- 主机:承载计算节点的物理机、虚拟机或容器运行环境;
- 引擎节点:部署在不同主机上的计算执行节点,负责实际的数据处理任务;
- 资源组:由多个引擎节点组成的计算资源集合,可按业务域、任务类型、环境或资源规格进行划分;
- 任务指派:业务任务可指定运行的资源组;
- 自动调度:任务提交后,平台自动调度资源组内可用计算节点;
- 并行执行:同一资源组内的多个跨主机计算节点可并行处理任务,提高大批量数据同步、转换和加工效率;
- 弹性扩展:通过增加主机和引擎节点,可扩展资源组计算能力;
- 资源隔离:不同业务任务可绑定不同资源组,避免计算资源相互抢占。
该能力适用于:
- 大批量库表同步;
- 多表并发抽取;
- 文件批量处理;
- CDC 数据消费处理;
- 离线 ETL 任务并行计算;
- 跨系统数据迁移;
- 多业务域计算资源隔离。
十五、运维管理
| 子模块 | 核心能力 |
|---|---|
| 硬件监控 | 服务状态监控 |
| 数据备份 | 配置库与配置文件备份 |
| 高可用 | 主备架构 + 自动故障切换 |
运维管理模块用于保障平台稳定运行,支持部署状态监控、服务健康检查、配置备份、故障恢复和高可用运行。
总结
Ottomi Nexus 的核心产品哲学可以概括为:
- “数据黑盒 · 模型白盒”:双沙盒机制让数据安全可控,模型透明可审计;
- “对话即建模”:AI 画布助手将自然语言转化为可视化工作流;
- “单包一体化”:一个 Docker Compose 命令,快速完成平台部署;
- “标准先行,治理闭环”:通过数据标准、质量管理、落标评估和资产运营,实现企业数据治理闭环;
- “多源归集,统一纳管”:支持库表抽取、CDC 同步、接口归集、文件归集等多种数据接入方式;
- “并行计算,弹性调度”:基于主机、引擎节点和资源组概念,实现跨主机、多节点并行执行;
- “多模态 AI 数据底座”:面向文本、图像、音频、视频、文档等多模态数据,提供标准化、资产化、智能化处理能力;
- “企业级安全合规”:6 级权限粒度、4 种脱敏算法、国密算法、全链路审计与数据分类分级,构建安全可信的数据基础设施。
Ottomi Nexus 3.0 通过数据接入、数据标准、数据质量、数据开发、资产管理、共享服务、AI 智能和任务调度等模块的一体化融合,为政企客户提供从数据资源到数据资产、从数据治理到 AI 应用、从单体平台到可信数据空间的完整能力支撑。