奥腾多模态AI数据中台(Ottomi-Nexus 3.0)能力介绍

Ottomi Nexus 是一个基于 DataOps 思想打造的全链路数据处理平台,采用单包一体化交付、容器化部署,面向政企数据治理、数据开发、数据资产运营、多模态 AI 数据管理与可信数据空间建设等场景,提供从数据接入、标准治理、质量管理、开发建模、任务调度、资产服务到 AI 智能应用的一体化能力。

功能模块可划分为以下几大板块:


一、管理中心

子模块核心能力
账号管理成员管理、组织单位管理、角色管理
权限体系RBAC + ABAC,6 级粒度:系统 → 项目 → 数据源 → 表 → 行 → 列
行级权限细粒度数据行访问控制
日志管理全操作审计,防篡改日志
AI 助手配置大模型接入配置、API Key 管理
系统配置通知渠道配置,支持站内信、邮件、企业微信等

二、业务规划

子模块核心能力
数据分层设计ODS 原始层 → DWD 标准明细层 → ADS 应用指标层
业务板块与主题域板块创建、主题域划分,支撑企业级数据架构规划
项目空间管理项目创建、计算源管理、成员管理
双沙盒架构开发沙盒 / 生产沙盒强隔离模式,或单沙盒一体化模式
三种部署模式大型集团级标准双沙盒、中等混合灵活组合、轻量一体化极简部署

三、数据接入引擎

数据接入引擎面向企业多源异构数据归集场景,支持数据库、CDC、接口、文件等多种数据接入方式,实现结构化、半结构化以及多模态数据资源的统一纳管和归集。

子模块核心能力
源端数据库管理注册异构数据源,支持 MySQL、PostgreSQL、Oracle、DB2、SQL Server、达梦、人大金仓、OceanBase、TiDB、ArgoDB、Greenplum、ClickHouse、Doris、StarRocks、GBase、Hive 等 40+ 数据源
数据库类型管理通过 JDBC 驱动可扩展,支持企业自定义数据源接入
库表抽取支持库表级数据抽取,覆盖全量同步、增量同步、差异更新同步等场景
CDC 同步支持毫秒级延时的数据变更捕获,覆盖 MySQL-CDC、Oracle-CDC、PostgreSQL-CDC、SQL Server-CDC、MongoDB-CDC 等
接口归集通过界面配置自动生成接口归集任务,并从源端 API 获取数据;支持 GET、POST、PATCH 等 HTTP 请求方法
接口参数配置支持 URL 参数、Body 参数、请求头配置;支持参数转换,包括无需转换和 Java 脚本转换
Body 参数格式支持 form-data、application/json、text/plain 等多种 BODY 参数格式
参数来源接口归集参数可来自自定义配置,也可来自库表配置,实现动态参数化采集
文件归集支持多种格式数据文件导入,包括 csv、txt、xlsx、lsx 等,并将支持 json、xml、orc 文件上传资源
样本规则 & 样本引擎5 种样本生成策略:绑定样本规则、表达式计算、外表值域生成、基础类型生成、按原表数据;三层规则体系:基础规则、业务规则、特殊规则;支持隐私计算转换,样本数据可参与计算
资源透视数据源浏览、表结构查看、DDL 复制、数据查询
元数据管理自动编目、资产上下架
AI 自动编目AI 辅助源端资产自动编目与聚合

3.1 数据归集能力说明

3.1.1 库表抽取

库表抽取面向传统业务系统数据库同步场景,支持将源端数据库中的表数据同步到平台指定目标端,适用于历史数据初始化、周期性数据归集、业务系统数据汇聚等场景。

支持方式包括:

  • 全量同步:一次性抽取源表全部数据,适用于初始化装载、历史数据迁移。
  • 增量同步:基于时间字段、主键、版本号等增量标识,仅同步新增或变化数据。
  • 差异更新同步:对源端与目标端数据进行差异识别,并执行新增、更新等同步动作。
3.1.2 CDC 同步

CDC 同步通过捕获源端数据库的变更日志,实现低延迟数据变更同步,适用于实时数仓、实时指标、业务系统异步解耦、数据湖实时入湖等场景。

支持能力包括:

  • 毫秒级数据同步延时;
  • 支持新增、修改、删除等变更事件捕获;
  • 支持 MySQL-CDC、Oracle-CDC、PostgreSQL-CDC、SQL Server-CDC、MongoDB-CDC;
  • 可与实时计算、实时质量校验、实时数据服务等模块联动。
3.1.3 接口归集

接口归集是一个通过界面化配置自动生成接口采集任务,并从源端系统 API 自动获取数据的工具。用户无需编写复杂代码,即可完成第三方接口数据归集。

支持能力包括:

  • 支持 GET、POST、PATCH 等 HTTP 请求方法;
  • 支持 URL 参数、Body 参数、请求头配置;
  • 支持参数转换,包括无需转换和 Java 脚本转换;
  • 支持 form-data、application/json、text/plain 等 Body 参数格式;
  • 参数来源支持自定义配置,也支持来自库表配置;
  • 可用于 SaaS 系统、业务系统、政务接口、第三方开放平台等接口数据采集场景。
3.1.4 文件归集

文件归集面向批量文件导入和外部文件资源纳管场景,支持将本地或远程文件导入平台并转化为可处理的数据资源。

支持格式包括:

  • 已支持:csv、txt、xlsx、lsx 等;
  • 规划支持:json、xml、orc 等文件上传资源;
  • 可与数据标准、质量校验、数据开发、资产目录等模块联动,实现文件数据的规范化治理。

四、研发中心 · 数据开发

核心能力:可视化拖拽式 ETL 画布 + AI 智能助手“对话即建模”。

4.1 开发组件库(9 大类 95+ 组件)

类别数量代表组件
实时输入7Kafka、MySQL CDC、Oracle CDC、SQL Server CDC、MongoDB CDC、PostgreSQL CDC、EventStore
实时输出3单表输出、StarRocks 输出、Kafka 输出
离线输入14单表、API、MongoDB、StarRocks、Excel、CSV、XML、Text、S3、JSON、逻辑表、FTP、SFTP、RabbitMQ
离线输出9Text、Excel、CSV、XML、JSON、ORC、S3、FTP、SFTP
数据转换(实时/离线通用)19异常值检测、唯一 ID 生成、列转行、NULL 替换、数据过滤、值替换、字符串修剪/大小写/拆分/拼接/切片、字段过滤、字段名映射、Java 高级转换、JsonPath 提取、函数计算、数据加解密、数据脱敏
离线脚本11脚本管理、SQL、Shell、Python、Flink、MR、FlinkSQL、HQL、DataX、Sqoop、Flink JAR
离线数据运算3聚合、去重、排序
离线多表同步1多表批量同步
离线数据融合1表合并

4.2 内置函数库(84+ 函数)

类别数量示例
数值函数27ABS、CEIL、FLOOR、ROUND、MOD、SQRT、EXP、LN、LOG、POWER、RAND 等
字符串函数28CONCAT、SUBSTR、TRIM、REPLACE、REGEXP_LIKE、REGEXP_REPLACE、LEFT、RIGHT、LPAD、RPAD 等
时间函数若干日期格式化、日期计算、时间差等
系统函数若干系统变量、环境信息等

4.3 AI 画布助手

  • 内置在可视化建模画布侧边的智能助手对话框;
  • 自然语言描述 → 自动解析 → 画布自动完成数据源选取、算子拖拽、参数配置、连线编排;
  • 支持 AI 模型接入,包括云端模型和本地私有化模型;
  • 覆盖数据归集、数据开发、数据质检等 AI 应用场景;
  • 帮助数据工程师、数据分析师和业务人员降低数据开发门槛。

五、数据标准管理

数据标准模块整体划分为 标准管理、参考数据、通用配置、落标评估 四大核心功能板块,全面覆盖行业标准层级搭建、业务数据标准全生命周期管控、标准资源沉淀、标准化模板配置、智能特征识别、数据自动对标、全域合规扫描、落标效果评估与执行追溯全流程能力。

该模块既满足政企传统结构化数据统一标准化治理需求,同时也将适配文本、图像、音视频等多模态 AI 数据规范化管控场景,为自动化建模提供干净、统一、口径一致、格式合规的高质量底层数据支撑,从源头解决企业数据口径混乱、字段命名杂乱、编码规则不统一、标准落地难、治理效果无量化依据等行业普遍痛点。

子模块核心能力
标准管理支持行业标准、企业标准、业务标准、字段标准、编码标准等标准体系建设
参考数据沉淀统一参考数据资源,如行政区划、行业分类、证件类型、状态码、枚举值等
通用配置支持标准模板、命名规则、编码规则、数据类型映射、标准识别规则等配置
落标评估支持数据自动对标、标准符合性检测、落标率统计、问题追溯与整改闭环

5.1 标准管理

标准管理用于构建企业级数据标准体系,支撑从标准定义、发布、引用到变更的全生命周期管理。

核心能力包括:

  • 支持行业标准、企业标准、业务标准等多层级标准体系搭建;
  • 支持字段名称、中文名称、英文名称、数据类型、长度、精度、值域、编码规则、口径说明等标准属性维护;
  • 支持标准分类、标准版本、标准状态管理;
  • 支持标准发布、下线、变更留痕;
  • 支持标准与数据资产、数据模型、数据质量规则的联动。

5.2 参考数据

参考数据用于沉淀企业统一使用的基础编码、枚举、字典和值域资源,解决不同系统之间编码不一致、含义不统一的问题。

核心能力包括:

  • 支持行政区划、组织机构、行业分类、证件类型、人员类型、业务状态码等参考数据维护;
  • 支持参考数据分组、版本、状态管理;
  • 支持参考数据与字段标准、质量规则、数据开发任务联动;
  • 支持统一值域校验,保障业务系统和数据平台口径一致。

5.3 通用配置

通用配置用于支撑标准化治理过程中的规则化、模板化、自动化能力。

核心能力包括:

  • 标准模板配置;
  • 字段命名规范配置;
  • 数据类型映射配置;
  • 编码规则配置;
  • 智能特征识别规则配置;
  • 标准匹配规则配置;
  • 多场景、多行业标准适配配置。

5.4 落标评估

落标评估用于衡量数据标准在真实数据资产中的执行效果,帮助企业从“有标准”走向“标准真正落地”。

核心能力包括:

  • 数据资产自动对标;
  • 字段名称、字段类型、字段长度、字段注释、值域范围等标准符合性扫描;
  • 全域合规扫描;
  • 标准落标率统计;
  • 问题清单生成;
  • 整改跟踪与执行追溯;
  • 标准执行效果量化评估。

六、质量管理中心

质量管理中心基于 DAMA 标准,围绕完备性、一致性、准确性、及时性、唯一性、规范性 6 大质量维度构建规则体系,支持定时批量质检、实时流式质检和用户自定义质量规则。

规则类别数量示例
单表结构检查9表非空、时间戳字段、字段注释齐全、主键完整性、重复数据、引用完整性、最后更新时间合规、增量存在性、增量异常
单表字段内容检查50+空值、全角字符、值域范围、字段长度、日期格式、手机号、身份证、护照、银行卡、军官证、邮箱、统一社会信用代码、行政区划代码、车牌、血型、VIN 码、税号等
单表条件检查若干业务条件组合校验
多表/全库结构检查若干跨表一致性、全库规范性
多表动态检查若干跨表动态逻辑校验
实时数据检查若干实时流数据质量监控

核心能力包括:

  • 支持质量规则配置、规则分组、规则模板管理;
  • 支持离线批量质量校验;
  • 支持实时数据质量监控;
  • 支持质量任务调度和异常告警;
  • 支持质量报告生成;
  • 支持质量问题闭环处理;
  • 支持与数据标准模块联动,基于标准自动生成部分质量规则。

七、数据资产管理

子模块核心能力
资产市场“数据超市”,支持浏览、搜索、申请数据资产
数据源表资产资产编目、业务分类、血缘追踪、多维评价
指标体系原子指标、衍生指标、复合指标,构建三级指标体系
API 资产API 浏览、申请、审批
文件管理文档存储、上传、归档
智能识别OCR 识别、文档摘要、关键词提取,面向图片、音频、视频、文档等多模态数据

数据资产管理中心用于实现数据资源资产化、资产服务化和服务价值化,帮助企业构建统一的数据资产目录、数据资产市场和资产运营体系。


八、数据共享服务中心

子模块核心能力
API 自动生成向导式将数据表一键封装为 RESTful API
API 市场API 发布、注册、版本管理、流量监控
动态脱敏API 调用时自动脱敏
审批流程数据申请 → 审批 → 订阅 → 授权全生命周期
接口市场API 上下线管理,可自定义审批流

数据共享服务中心用于将治理后的数据资产以 API、接口市场等形式对外提供服务,支持数据申请、审批、授权、调用、监控、下线的全生命周期管理。


九、数据安全与合规

子模块核心能力
分类分级自动敏感扫描与数据分类,支持 S1-S5 分级
加密支持 SM2/SM3/SM4 国密算法
数据脱敏4 种脱敏算法:字符掩码、加密 SM4、HASH、字符替换
双沙盒隔离“数据黑盒 · 模型白盒”——生产沙盒数据不可见,开发沙盒仅使用样本数据,模型一键发布到生产
全链路血缘源端到应用端完整追溯
防篡改审计全操作记录与哈希存证
合规符合《数据安全法》《个人信息保护法》等要求

数据安全与合规模块贯穿数据接入、开发、治理、共享和应用全过程,保障数据可用不可见、可控可审计、可追溯可合规。


十、可视化数仓建模

子模块核心能力
Kimball 维度建模可视化维度表、事实表构建
拖拽式 Cube 设计多维 Cube,支持切片、上卷、下钻
三级指标体系原子指标 → 衍生指标 → 复合指标
库表无关支持任意兼容数据库作为数仓后端,如 MySQL、Oracle、Doris、Greenplum、Hive 等

可视化数仓建模能力帮助企业以低代码方式构建主题域模型、维度模型、事实模型和指标体系,降低传统数仓建模门槛。


十一、BI 分析与可视化

子模块核心能力
内置 BI基于开源 DataEase 集成
可视化仪表盘拖拽式报表创建,无需编码
图表类型柱状图、折线图、饼图、仪表盘、数据大屏
自助分析面向业务人员的友好分析界面

BI 分析与可视化模块面向业务分析、经营监控、指标看板、数据大屏等场景,为业务用户提供自助式数据分析能力。


十二、AI 智能中心

子模块核心能力
大模型配置对接公有云 LLM,如通义千问、文心一言等,或私有化部署模型
AI Agent数据归集智能体、数据开发智能体,可编辑 Prompt 模板
LangChain 编排多工具 + LLM 协同工作流
计划中API、MCP 模型上下文协议扩展、Skills 插件机制

AI 智能中心为平台提供统一的大模型接入、智能体编排和智能辅助能力,可支撑数据归集、数据开发、数据质检、数据资产编目、知识问答等智能化场景。


十三、可以升级为可信数据空间

子模块核心能力
零信任架构连接器管理、自动部署
样本引擎差分隐私、合成数据、格式保持加密
空间管理独立数据空间、跨空间合规共享
区块链存证防篡改日志 + 区块链证据存储

Ottomi Nexus 可进一步升级为可信数据空间底座,支持多主体之间的数据安全流通、合规共享和可信协作。


十四、任务调度引擎

任务调度引擎负责平台内数据归集、数据开发、质量检查、标准落标评估、数据同步、脚本执行等任务的统一编排、调度、执行和监控。

子模块核心能力
DolphinScheduler 集成提供分布式任务调度能力,支持复杂任务流编排
调度配置支持按秒、分、时、天等周期配置
依赖编排支持复杂工作流上下游依赖编排
监控告警支持运行日志监控、任务状态监控与异常告警
并行计算引擎引用 SeaTunnel 的主机、引擎节点、资源组概念,实现跨主机、多节点并行计算
资源组调度支持业务任务指派资源组,由平台自动调度资源组内所有跨主机计算节点并行执行

14.1 分布式任务调度

平台集成 DolphinScheduler,提供任务流编排、定时调度、依赖管理、失败重试、补数执行、运行监控等能力。

典型能力包括:

  • 支持数据同步任务、ETL 任务、SQL 脚本任务、Shell/Python/Flink 等脚本任务统一调度;
  • 支持任务上下游依赖;
  • 支持任务失败重试;
  • 支持任务补跑;
  • 支持周期性任务配置;
  • 支持任务运行日志和执行状态监控。

14.2 并行计算引擎

平台内置并行计算引擎,引用 SeaTunnel 的 主机、引擎节点、资源组 等核心概念,对数据同步、数据转换、批量处理等业务任务提供跨主机、跨节点的并行执行能力。

其核心执行模式为:

业务任务 → 指派资源组 → 自动调度组内所有跨主机计算节点并行执行

具体说明如下:

  • 主机:承载计算节点的物理机、虚拟机或容器运行环境;
  • 引擎节点:部署在不同主机上的计算执行节点,负责实际的数据处理任务;
  • 资源组:由多个引擎节点组成的计算资源集合,可按业务域、任务类型、环境或资源规格进行划分;
  • 任务指派:业务任务可指定运行的资源组;
  • 自动调度:任务提交后,平台自动调度资源组内可用计算节点;
  • 并行执行:同一资源组内的多个跨主机计算节点可并行处理任务,提高大批量数据同步、转换和加工效率;
  • 弹性扩展:通过增加主机和引擎节点,可扩展资源组计算能力;
  • 资源隔离:不同业务任务可绑定不同资源组,避免计算资源相互抢占。

该能力适用于:

  • 大批量库表同步;
  • 多表并发抽取;
  • 文件批量处理;
  • CDC 数据消费处理;
  • 离线 ETL 任务并行计算;
  • 跨系统数据迁移;
  • 多业务域计算资源隔离。

十五、运维管理

子模块核心能力
硬件监控服务状态监控
数据备份配置库与配置文件备份
高可用主备架构 + 自动故障切换

运维管理模块用于保障平台稳定运行,支持部署状态监控、服务健康检查、配置备份、故障恢复和高可用运行。


总结

Ottomi Nexus 的核心产品哲学可以概括为:

  • “数据黑盒 · 模型白盒”:双沙盒机制让数据安全可控,模型透明可审计;
  • “对话即建模”:AI 画布助手将自然语言转化为可视化工作流;
  • “单包一体化”:一个 Docker Compose 命令,快速完成平台部署;
  • “标准先行,治理闭环”:通过数据标准、质量管理、落标评估和资产运营,实现企业数据治理闭环;
  • “多源归集,统一纳管”:支持库表抽取、CDC 同步、接口归集、文件归集等多种数据接入方式;
  • “并行计算,弹性调度”:基于主机、引擎节点和资源组概念,实现跨主机、多节点并行执行;
  • “多模态 AI 数据底座”:面向文本、图像、音频、视频、文档等多模态数据,提供标准化、资产化、智能化处理能力;
  • “企业级安全合规”:6 级权限粒度、4 种脱敏算法、国密算法、全链路审计与数据分类分级,构建安全可信的数据基础设施。

Ottomi Nexus 3.0 通过数据接入、数据标准、数据质量、数据开发、资产管理、共享服务、AI 智能和任务调度等模块的一体化融合,为政企客户提供从数据资源到数据资产、从数据治理到 AI 应用、从单体平台到可信数据空间的完整能力支撑。