今天最重要的信号,不是某个 Agent 又能完成一个更酷的 demo,而是 Agent 产品的竞争层正在迁移:
从「模型能不能做事」,转向「系统能不能保管工作状态」。
过去我们评估 Agent,常看它能不能写代码、改网页、生成 PPT、操作浏览器。但生产级 Agent 真正难的不是一次性执行,而是持续工作:文件在哪里?上下文来自哪里?技能如何复用?权限如何控制?变更如何追踪?结果如何评测?什么时候必须让人确认?
一句话判断:
Agent 产品真正要管理的是工作状态、能力资产和验证闭环,而不是单次生成结果。
信号 1:持久 Agent 文件系统成为新基础设施
来源: Guillermo Rauch / Vercel
关键词: Agent Filesystem / Durable State / Remote Sandbox
Vercel Sandbox Drives 进入 private beta。它的关键变化是:sandbox 的文件系统状态可以通过 drive 独立于计算生命周期保存、挂载和复用。
也就是说,Agent 不再只能在一次性容器里执行任务,而可以拥有一个可持续的工作空间。
这件事很重要。长期任务、跨天续跑、多人审查、代码库构建、依赖缓存、artifact 版本管理,都需要一个持久层。
没有持久 filesystem,Agent 只能做短任务;有了持久 drive,Agent 才有机会从「临时执行器」变成「长期工作者」。
架构含义: compute sandbox、drive/storage、run ledger、artifact store 必须解耦。计算可以随时销毁,但工作状态不能随计算一起消失。
可构建产物: Agent Drive + Run Ledger + Artifact Version History。
风险: 持久化也会放大隐私、脏状态和错误继承风险。必须配套 TTL、scope、secret scrub、权限边界和状态清理机制。
下一步验证: 设计一个跨天任务:今天让 Agent 生成文件和中间产物,明天继续执行,并要求它解释「当前状态来自哪里、哪些内容可以信任、哪些需要重新确认」。
进一步阅读:
- Vercel Changelog|Drives for Vercel Sandbox in Private Beta
- Vercel Docs|Persistent Sandboxes
- Vercel Changelog|Run Docker containers inside Vercel Sandbox
信号 2:Codex workflows 正在把 Agent 从 coding 扩到业务自动化
来源: OpenAI Developers / Codex
关键词: Workflow Library / App Connectors / Domain Skills
OpenAI Codex 的官方用例已经明显超出 coding agent:从 Slack 发起任务、保存可复用 workflow 为 skill、自动更新文档、review PR、处理复杂代码库、构建 iOS app 等。
这说明 Codex 的产品方向不是单纯「更会写代码」,而是成为一个跨工具的 workflow automation surface。
Coding 只是入口,真实价值在于连接用户已有的工作系统,并保留用户的风格、组织规则和验收标准。
Workflow 不只是一个 prompt,而应该包含输入、连接器、权限、执行边界、产物格式、人工确认点和验收标准。
产品含义: Agent 产品需要 Workflow Gallery。每个 workflow 不只是一个 prompt,而应该包含:输入、连接器、权限、执行边界、产物格式、人工确认点和验收标准。
架构含义: 需要 connector broker、domain skill、tool permission、audit log、human approval。否则跨 app 自动化很容易越权、误操作或生成不可追踪的结果。
可构建产物: Codex-style Workflow Gallery:每个 workflow 都有明确的输入、连接器、权限、产物和验收标准。
风险: 跨 app 自动化最危险的地方,不是失败,而是「看起来成功但做错了」。默认应该 human-in-the-loop,先从低风险 workflow 开始。
下一步验证: 优先 dogfood 两类低风险流程:
- inbox draft:只生成回复草稿,不自动发送;
- PR review:只生成审查意见,不自动 merge。
进一步阅读:
- OpenAI Developers|Codex Use Cases
- OpenAI Developers|Codex App
- OpenAI GitHub|openai/codex
- OpenAI Skills|Skills Repository
信号 3:Design Skill 正在变成 taste layer,而不是单纯页面生成
来源: OpenAI Skills / Figma MCP / 设计社区讨论
关键词: Taste Skill / DESIGN.md / Preview Annotation
AI 生成 UI 的瓶颈正在变化:过去是「能不能画出来」,现在是「能不能稳定符合品味、品牌、细节和实现约束」。
OpenAI Skills 里已经出现面向 Figma 到代码的结构化 skill,强调 design token、Figma MCP、组件边界和 visual fidelity。OpenAI 与 Figma 相关 workflow 也说明,设计 Agent 不只是把图变成代码,而是要在 canvas、code、preview、annotation 之间反复对齐。
这背后的本质是:设计能力正在从 prompt 变成 taste layer。
一个好的 design skill,不应该只是「生成一个好看的页面」,而应该把品牌审美、组件规范、字体、间距、动效、截图反馈和实现约束沉淀下来。
产品含义: 应该提供 taste library、design rules、preview annotation、implementation fidelity checker。
架构含义: design skill、视觉参考、组件约束、截图 QA、DOM diff、人工批注要连起来。否则每次生成都像重新抽奖。
可构建产物: Design Skill Pack + Visual QA Runner + Taste Profile。
风险: Taste skill 很容易变成主观提示词,最后不可评测、不可复现。必须引入截图评测、组件规范和视觉 diff。
下一步验证: 拿同一个 Reader Mac App prompt,分别跑 Codex、Claude、Hermes,对比三件事:视觉一致性、实现保真度、修改后的细节损失。
进一步阅读:
- OpenAI Skills|Figma Implement Design Skill
- OpenAI Skills|官方 Skills 仓库
- Figma Live|Codex to Figma with OpenAI
- The Verge|Figma made its design tools more accessible to AI agents
- arXiv|Figma2Code: Automating Multimodal Design to Code in the Wild
信号 4:Claude data analytics 说明生产级 Agent 的核心是 eval + data foundation
来源: Anthropic / Claude Data Analytics
关键词: Data Agent / Evals / Context Drift
Anthropic 披露,内部约 95% 的 business analytics queries 已由 Claude 自动化完成,整体准确率约 95%。
但它真正有价值的地方不是这个数字,而是它指出了数据 Agent 的核心问题:不是 SQL 能力,而是上下文、指标口径、数据模型映射和验证机制。
数据 Agent 最容易制造「精确幻觉」:答案格式很好、语气很自信、SQL 也看起来合理,但它可能用了错误的表、错误的字段、过期的指标定义,或者误解了业务概念。
数据 Agent 的可靠性不是一次 prompt 调出来的,而是被持续评测和维护出来的。
产品含义: 数据 Agent 必须有 Metric Dictionary、Context Refresh、Eval Case Builder、引用链和结果置信度。
架构含义: Agent 输出不能只是最终答案,还要绑定 query/tool trace、数据字典版本、上下文来源和 eval 结果。
可构建产物: Data Agent Readiness Checklist + Metric Eval Suite。
风险: 没有真实历史错误样例,就很容易高估 Agent 的数据分析能力。
下一步验证: 构建 20 个真实业务指标问题,故意引入 schema drift、指标口径变化、字段重名、时间窗口差异,记录 Agent 的失败模式。
进一步阅读:
- Anthropic|How Anthropic enables self-service data analytics with Claude
- Cat Wu|关于 Anthropic 数据团队自动化分析的原始讨论
- Anthropic|Claude Code Overview
- Anthropic|Claude Code Subagents
信号 5:AI Operator 的难点来自真实业务混乱,不是 demo 不够酷
来源: Kimi Work / SMB workflow 讨论 / AI Operator 方向观察
关键词: AI Operator / SMB Chaos / Docs-as-Runtime
Kimi Work 从 coding 场景扩展到 working 场景,是一个很明显的方向信号:Agent 正在从开发者工具进入普通知识工作者的桌面工作流。
但真实业务不是整洁的 demo。中小企业的工作流常常是混乱的:客户在微信里改需求,邮件里发新版 PDF,飞书里补一句确认,文件名不规范,历史版本混在一起,最后还期待团队「都知道」。
所以 AI Operator 的核心不是让 Agent 全自动接管业务,而是先把混乱工作流整理成可追踪、可确认、可更新的状态机。
产品含义: 应该做 change ledger、context inbox、docs-as-runtime、operator console。先让 Agent 帮人归并、提醒、确认、生成下一步,而不是直接替人做不可逆动作。
架构含义: 需要事件归并、冲突检测、来源可信度、人工确认和任务状态账本。
可构建产物: AI Operator Console:聚合多渠道变更,生成确认项、风险提示和下一步动作。
风险: SMB 数据越混乱,自动化误操作风险越高。早期不要追求 full automation,应该优先做 assistive operator:协助、确认、记录、追踪。
下一步验证: 找一个真实客户流程,画出四张图:渠道图、状态图、异常图、人工确认点。只有这个流程图跑通,Agent 才值得进入自动化。
进一步阅读:
- Kimi Work|Next-Gen Desktop AI Agent
- Kimi K2.5|Open Visual Agentic Model for Real Work
- OpenAI Developers|Codex Use Cases
- arXiv|How Do AI Agents Spend Your Money?
今日总判断
Agent OS 的核心不是聊天框,而是五个系统:
- 持久工作空间:保管文件、状态、版本和产物;
- Workflow Templates:把可重复工作沉淀成可执行流程;
- Skill Registry:把能力资产标准化、复用化、可安装;
- Context + Eval:把上下文、指标、验证和失败样例纳入系统;
- Operator Console:让人能看见、确认、回滚和审计 Agent 的动作。
应加强赌注: Agent Workspace + Skill Workshop + Data/Design Eval。
真正有价值的不是一次生成,而是把成功经验、文件状态、上下文来源和验收标准沉淀为系统资产。
应延后赌注: 完全自动化 SMB 工作流和开放 skill marketplace。
当前阶段更应该先做确认、审计、私有 registry 和人工可控。
下一步验证: 用一个真实工作流做端到端 prototype:
多渠道输入 → Agent 归并状态 → 生成产物 → 人工审查 → 形成 run ledger → 沉淀成 skill。
一句话收束:
Agent 的下半场,不是谁更会生成,而是谁更会保管工作状态。