
导读 本文整理自 DACon Shanghai 2026 主题演讲。
今天想跟群众聊一件正在发生、但许多企业还没确实准备好的事:
数据的破钞者,正在从东谈主变成机器,变成 AI Agent。
这件事听起来像一个配景变化,但对数据基础步调来说,它改换的是最中枢的前提假定。
我想解释清晰三件事:第一,Agent 的到来为什么会再行界说数据基础步调;第二,在 Agent 时间,数据语义和数据治理为什么反而变得更难;第三,为什么从元数据、到语义层、再到 Agent 探望层,咱们需要再行界说一套齐全的数据时候栈。
分享嘉宾|堵俊平 Datastrato 独创东谈主兼 CEO,Apache Gravitino 共同发起东谈主
01
数据破钞者正在换东谈主
当年几十年,咱们构建数据基础步调时,有一个从来没被明说过的前提:数据是给东谈主用的。
默许使用者是分析师、工程师、居品司理,以及 BI 用具背后的业务团队。但今天,一个越来越确实的新变装出现了——它会我方发现数据、意会 schema、生成查询、触发 pipeline,以致尝试回写系统。这个变装,等于 AI Agent。
回头看当年三年 AI 的演化旅途,其实很清晰:
2022 年底:ChatGPT 引爆这波翻新,群众关注的是大模子自身,本质是在治理「回复问题」这件事
2024 年:RAG 兴起,模子开动集结企业学问库和崎岖文来作答
2025 年:从 Manus 到 OpenClaw,万般智能 Agent 走到舞台正中央,AI 从「回复问题」走向「实践任务」

这看似只是一步变化,但本质绝对不同。回复问题,只需要生成一个像样的谜底;实践任务,意味着要蓄意、调用用具、深度交互、连气儿决策、对后果负责。
Agent 正在成为新一代的软件操作家。 它不再只是聊天窗口里的回复器,而是一个确实能操作操作系统、数据平台、基础软件的实践者。它不错是展刻下用户眼前的智能助手,也不错是企业里面自主运转的服务流,以致是在后台静默运行、用户毫无感知的自主系统。
当 AI 从回复走向实践,通盘软件架构也在随之变化。传统架构里,东谈主通过 UI 使用行使;Copilot 时间,AI 是扶直者;Agent 时间,东谈主给标的,Agent 自行调用用具和 API,操作底层数据与系统。畴昔,Agent 将成为软件最主要的使用进口。

这改换的不单是行使层,而是会重塑通盘基础步调层和数据平台层。以往「为东谈主类操作优化」的遐想念念路,在 Agent 时间如故不再适用了。咱们必须探究的问题,从「若何让东谈主用得顺」,变成了「若何让 Agent 概况高效、安全、可管控地使用万般系统」。
02
确实的瓶颈,不在模子
以往的数据使用者,大多是企业分析师、检察报表的业务东谈主员、数据科学家和行使开发者;如今越来越多的数据使用者,正在变成 AI 助手、自动化服务流智能体、自主数据运维轨范,以及多才能推理系统。

这并非只是新增一类用户,而是澈底改换了合座的数据破钞模式。东谈主类分析师翻开 dashboard,看几个研究,提几个问题;Agent 会握续地发现、搜索、推理和实践——二者在探望频次、行为阵势和容错模式上,绝对不同。
破钞者如故变了,数据基础步调就必须随着变。 若是底层照旧按东谈主类交互逻辑遐想,干预 Agent 时间就会出现多半才调断层和治理舛误。
这一年,我在多样场面被问烂了归拢个问题:「咱们的 Agent 在测试环境跑得很顺,为什么一上业务系统就出问题?」
第一响应险些都是换模子、重写教唆词。这不是群众不聪敏——模子的问题平直体刻下输出上,让你看到;数据层的问题更荫藏,Agent 会称心地出错,你根蒂不知谈它作念了什么。
确实的瓶颈,早已不在模子自身,而是数据平台性能和数据探望才调。去看一个 Agent 在企业里确实干活的全过程:发现可用数据资源、意会 schema、检索崎岖文、实践查询、更新数据、触发卑劣 pipeline……它大部分时辰并不花在「念念考」,而是花在「和数据打交谈」。

今天绝大多数数据平台,本质上是为「东谈主类编写 SQL」遐想的,不是为「Agent 操作系统」打造的。 东谈主类能靠训导和临场判断弥补系统劣势,Agent 不可——它需要机器可读、结构清晰、便于管控的运行环境,缺了这个基础,Agent 就很难确实落地。
我见过太多 Agent 面目死在这里:演示很漂亮,上了坐褥就开动出问题,终末论断是「时候还不老练」。不是时候不老练,是数据层没准备好。
03
Agent 和东谈主类探望数据,差的不是量,是种类
东谈主类和 Agent 在数据破钞上有四个本质离别:
偶尔 vs 握续:分析师一天翻开姿首盘三次,Agent 可能每分钟在发恳求——数据系统任何招架建都会被放大到极致。
容忍暧昧 vs 将暧昧变成动作:字段界说不清晰,工程师会去问东谈主;Agent 会平直作念出一个解读并实践,这个实践可能在你不知情的情况下触发出东谈主料到的操作。
手动查验 vs 链式实践连续歇:咱们遐想了许多「终末一都东谈主眼查验」的过程,Agent 不会在那里停,它拿着上一步后果平直往下走。
使用用具 vs 编排系统:东谈主翻开报表是在使用用具;Agent 不错调用 API、触发 pipeline、写回数据——它在编排通盘系统。

是以在 Agent 时间,数据治理的界说必须升级。当年治理中枢是界定「谁能看哪些数据」;今天还要明确「这个 Agent 被允许预计什么、生成什么、实践什么、修改什么」。数据治理从静态权限管控,滚动为界定动态实践范畴——咱们治理的,不再只是数据探望行为,而是 Agent 齐全的行为实践链路。
04
RBAC 管不了 Agent,不是 RBAC 不好
以往的治理对象是数据表、姿首盘、用户变装,依靠基于变装的静态权限体系,就能高效完成数据治理服务。但 Agent 所处的环境千差万别——它具备动态业务意图、跨系统实践、握续自主探索、生成式查询等特质。
说平直少许:传统 RBAC 在 Agent 时间如故不够用了。
这不是月旦 RBAC。它是为东谈主遐想的,治理了「这个用户能不可探望这张表」这个问题,并且治理得很好。但 Agent 带来的不是更复杂版块的权限问题,而是一个绝对不同的问题:这个 Agent,在这个时刻,带着这样的意图,被允许作念什么?
RBAC 只知谈「你是谁」,却不知谈「你刻下想作念什么、为什么这样作念、是否顺应崎岖文拘谨」。静态权限模子,如故无法适配 Agent 运行过程中动态产生的万般行为与推理动作。

05
更深的问题:才调有,但都是散的
不少企业会说,咱们早已搭建完备的元数据、研究体系、管控计策和数据血统,落地依旧困难重重——为什么?
原因是这些才调大多处于散播气象:元数据洒落在多个数据系统,检索轨范不结伙;治理律例散播部署在不同引擎,律例难以结伙;数据血统支离破灭,审计链路打欠亨;探望管控律例随平台变化,无法酿成结伙的面向 Agent 的探望管控体系。

后果是一朝让 Agent 接进来,它莫得结伙、实在、机器可读的截止平面可依赖,只可退而求其次:原生 SQL、临时 API、胶水代码。这类模式仅能在演示场景中运行,滚球app中国官网下载入口绝对无法适配企业追究业务的永久沉静落地。
若是莫得结伙的元数据和计策原语,Agent 最终只可 hack 进去。
群众不难发现下一步是建语义层,但这件事莫得想象中浮浅。
每个企业都但愿结伙万般业务研究界说——什么叫「收入」,什么叫「活跃客户」,什么叫「利润率」,什么叫「流失率」。这类结伙化的困难性世东谈主皆知,但现实是,有关界说散播存储在 BI 平台、数据开发剧本、分析 notebook 和万般报表剧本里,有多个版块,久而久之还会出现实体维度偏移、权责隔离暧昧、数据时效不一等问题。
企业并非枯竭业务语义,而是有太多版块的语义。

语义层的难点从来不单是建模,更深层的痛点是治理、权责隔离与业务轨范结伙。有团队想平直建骨子模子来治理这个问题——念念路很好,但若是枯竭结伙元数据当作底层救援,骨子模子也难以顺利落地成型。莫得沉静根基,语义层最终只会沦为仅能演示、无法落入坐褥的丽都详尽。
06
咱们需要什么:三层,统筹兼顾
要为 Agent 时间确实遐想数据栈,必须具备三层中枢才调,统筹兼顾。
第一层:结伙元数据截止平面厘清企业领有哪些数据、数据存储位置、包摄主体、探望权限以及治理律例。莫得这一层,Agent 莫得沉静可靠的崎岖文,只可靠猜。
第二层:语义层界说数据的施行含义,结伙业务研究口径,明如实体与维度之间的相干,界定泰斗的业务轨范。莫得这一层,Agent 拿到的只是原始表和字段,无法沉静意会「净收入」和「总收入」的区别。
第三层:智能体探望层让 Agent 自主发现数据资源、核验操作意图,在合规治理范围内完成操作,并齐全留存统统行为轨迹。枯竭这一层,Agent 连得上,但无法受治理地实践。
畴昔的数据平台,不再只是存储加计算,而是一个面向 Agent 实践的分层系统。

07
Gravitino 在作念什么,以及一个被低估的判断
在这个三层架构里,Apache Gravitino 作念的是第一层——结伙元数据截止平面。
它的中枢责任,是搭建联邦式元数据体系:在多数据源、多引擎、多云之间,树立结伙的元数据视图与全域治理体系。不是替代现存 catalog,而是成为「目次的目次」,提供跨系结伙致的全局崎岖文。

这件事对 Agent 罕见要害。Agent 需要的从来不是某个点状系统里的局部信息,而是一套机器可识别、跨系统轨范结伙的全局崎岖文环境。语义层的搭建,不异离不开默契的元数据底座;全域数据治理,也必须依托结伙的管控平面才能落地。
这里有一个被许多团队低估的判断:先有元数据,再谈语义。
完善的语义层开拓,高度依赖底层多项中枢才调:互不冲破的定名空间、受治理的 schema、分享实体、标签、计策、血统、统统权,以及跨引擎一致性。莫得这些,语义莫得落点,很难永久调度。
元数据是根基,业务语义是价值解说。莫得底层沉静、受治理的元数据系统,语义层等于沙堡——改一次底层就碎一次。

在语义层实践上,dbt MetricFlow 给行业提供了很好的参考——把受治理的原始数据索要为轨范化、可管控的业务语义:研究集合料理,一次界说、全域复用;BI、分析、AI 卑劣看到归拢份真相;业务逻辑从 BI 孤岛里抽离出来,千里淀到分享建模层。
这对 Agent 相配要害。Agent 需要的不单是原始表和字段,更是那些具备可解释性的齐全业务语义。若是 Agent 只可斗殴到零碎原始数据,就很难精确意会「活跃用户」「净收入」「高价值客户」这些中枢主见;依托轨范化可复用的业务语义,Agent 输出质料会高许多。

把通盘时候栈从上至下放在一张图里:破钞方(东谈主类 / BI / 助手 / Agent)→ 智能体探望层(MCP 通用贯串 + ADP 受治理实践)→ 语义层(研究/实体/维度/业务逻辑)→ Gravitino 元数据基座(结伙元数据 / 治理计策 / 血统 / 标签)→ 实践引擎(湖仓 / 数仓 / 向量存储 / 流式系统)。
Gravitino 统筹全域数据,语义层赋予业务解读,ADP 让 Agent 在安全范畴内合规实践。这不是单一居品治理决策,而是一套齐全的 Agent 数据时候栈开拓念念路。

08
对于 MCP:连上不等于用好
近期行业都在热议 MCP(Model Context Protocol)。这项时候很困难,它让 Agent 能用结伙阵势贯串用具,突出于为 AI 生态提供了通用可插拔接口——这是一个确实且困难的问题,MCP 治理得很好。
但 MCP 主要治理的是「连得上」,而在企业高价值业务、明锐数据处理和大限度数据行使场景中,只是连通远远不够。企业确实轻柔的是:这张表谁领有?这个字段是否明锐?这个查询是否符统统策?实践后审计纪录在那处?跨引擎的 lineage 若何保握一致?

这类深档次的数据治理需求,仅凭通用的 MCP 公约无法澈底治理。MCP 能买通接口、串联用具,却无法承载齐全的企业级数据治理崎岖文。我并非含糊 MCP 的价值——偶然相背,只是在企业追究的数据行使场景里,MCP 还需要更广泛的元数据、语义和治理才调来补足。
这恰是 Agentic Data Protocol(ADP) 要治理的中枢问题:让 Agent 从「当然话语纵贯原生 SQL」,进化到「纳入管控体系的意图式实践」。四步:
发现 — 梳理统统可调用的数据着手与资源
描画 — 明确数据源背后承载的业务含义与轨范操作阵势
核验 — 判断操作意图与所选数据源是否匹配,说明具备合感性
实践 — 在既定治理律例与权限范畴内完成操作
不应该让 Agent 平直从当然话语跳到原生 SQL——这样作念虽快,但治理风险极高,沉静性也差。四步递次渐进,才是确实能在企业落地的旅途。

09
企业从那处开动?三步,无须大跃进
这套体系协同运作,对三类团队都有平直价值:
数据团队:从服务传统 BI,顺利转向服务 AI Agent;减少沟通界说,结伙跨平台数据轨范,缩小治理运维本钱。
AI 团队:获取更好的 Agent 数据探望底座,让查询实践旅途更安全,清晰轨则自动化操作范畴。
业务团队:AI 取用数据变得实在可审计,万般业务决策也能在安全前提下,安祥交由 Agent 系统自主处理。
畴昔向上的数据平台,竞争的要害不单是「谁能回复更多问题」,而是 谁能更安全地录用更多决策。

落地冷漠,三步走,无须大跃进:
第一步:先结伙元数据。树立时候截止平面,先把底座打稳。不要一上来就想治理统统 Agent 问题,底座不稳,表层全是沙堡。
第二步:轨范化中枢语义。从最要害的 10 到 20 个业务研究开动,厘清治理律例,对都实体、维度与权责包摄。不要试图一次计帐统统语义债务,先管好最困难的那几个。
第三步:引入受治理的 Agent 探望框架。让 Agent 在实践前先发现、先考证。首批落地保举从读密集型服务流开动:当然话语查询研究、受治理数据集发现、基于业务语义的数据检索服务——写回和高风险操作放在背面。
先治理后扩权:治理律例先行,再安祥放宽 Agent 自主操作数据的范围。

10
皇冠体育(CrownSports)官网终末只说一件事
若是今天只带走一件事,我但愿是这一句:
当破钞者成为 Agent,数据基础步调必须在三个维度上进化:
从零碎独处的元数据 → 结伙元数据截止平面;
从杂沓沟通的研究口径 → 轨范结伙、受治理的语义体系;
从纰漏的原生 SQL 生成 → 计策感知、范畴化的 Agent 数据探望。

Agent 时间不单是给传统数据平台加一个聊天进口,而是会 再行界说数据平台的截止平面、语义层和实践范畴。
咱们在 Datastrato 正在作念的,等于把这三层买通——让企业数据基础步调确实具备宽待 AI Agent 时间的才调。
若是你正在企业里推这件事,或者正在为这件事头疼滚球app(中国)官网下载,接待找我聊。你们里面如故有哪些业务数据流开动交由 Agent 连结了?你们的数据基础步调,准备好了吗?