AI Agent 每日信号｜会保管工作状态的 Agent

今天最重要的信号，不是某个 Agent 又能完成一个更酷的 demo，而是 Agent 产品的竞争层正在迁移：

从「模型能不能做事」，转向「系统能不能保管工作状态」。

过去我们评估 Agent，常看它能不能写代码、改网页、生成 PPT、操作浏览器。但生产级 Agent 真正难的不是一次性执行，而是持续工作：文件在哪里？上下文来自哪里？技能如何复用？权限如何控制？变更如何追踪？结果如何评测？什么时候必须让人确认？

一句话判断：

Agent 产品真正要管理的是工作状态、能力资产和验证闭环，而不是单次生成结果。

信号 1：持久 Agent 文件系统成为新基础设施

来源： Guillermo Rauch / Vercel
关键词： Agent Filesystem / Durable State / Remote Sandbox

Vercel Sandbox Drives 进入 private beta。它的关键变化是：sandbox 的文件系统状态可以通过 drive 独立于计算生命周期保存、挂载和复用。

也就是说，Agent 不再只能在一次性容器里执行任务，而可以拥有一个可持续的工作空间。

这件事很重要。长期任务、跨天续跑、多人审查、代码库构建、依赖缓存、artifact 版本管理，都需要一个持久层。

没有持久 filesystem，Agent 只能做短任务；有了持久 drive，Agent 才有机会从「临时执行器」变成「长期工作者」。

小黑把任务、文件、上下文、版本和产物放进一个可持续工作空间。 — 持久 workspace 的价值，是让计算可以结束，但任务状态、文件和产物不会消失。

架构含义： compute sandbox、drive/storage、run ledger、artifact store 必须解耦。计算可以随时销毁，但工作状态不能随计算一起消失。

可构建产物： Agent Drive + Run Ledger + Artifact Version History。

风险： 持久化也会放大隐私、脏状态和错误继承风险。必须配套 TTL、scope、secret scrub、权限边界和状态清理机制。

下一步验证： 设计一个跨天任务：今天让 Agent 生成文件和中间产物，明天继续执行，并要求它解释「当前状态来自哪里、哪些内容可以信任、哪些需要重新确认」。

进一步阅读：

信号 2：Codex workflows 正在把 Agent 从 coding 扩到业务自动化

来源： OpenAI Developers / Codex
关键词： Workflow Library / App Connectors / Domain Skills

OpenAI Codex 的官方用例已经明显超出 coding agent：从 Slack 发起任务、保存可复用 workflow 为 skill、自动更新文档、review PR、处理复杂代码库、构建 iOS app 等。

这说明 Codex 的产品方向不是单纯「更会写代码」，而是成为一个跨工具的 workflow automation surface。

Coding 只是入口，真实价值在于连接用户已有的工作系统，并保留用户的风格、组织规则和验收标准。

Workflow 不只是一个 prompt，而应该包含输入、连接器、权限、执行边界、产物格式、人工确认点和验收标准。

小黑在一面工作流货架前，把输入、连接器、权限、确认点和验收标准整理成可复用卡片。 — Workflow Gallery 不应该只是 prompt 收藏夹，而是一组可执行、可审计、可验收的任务规格。

产品含义： Agent 产品需要 Workflow Gallery。每个 workflow 不只是一个 prompt，而应该包含：输入、连接器、权限、执行边界、产物格式、人工确认点和验收标准。

架构含义： 需要 connector broker、domain skill、tool permission、audit log、human approval。否则跨 app 自动化很容易越权、误操作或生成不可追踪的结果。

可构建产物： Codex-style Workflow Gallery：每个 workflow 都有明确的输入、连接器、权限、产物和验收标准。

风险： 跨 app 自动化最危险的地方，不是失败，而是「看起来成功但做错了」。默认应该 human-in-the-loop，先从低风险 workflow 开始。

下一步验证： 优先 dogfood 两类低风险流程：

inbox draft：只生成回复草稿，不自动发送；
PR review：只生成审查意见，不自动 merge。

进一步阅读：

信号 3：Design Skill 正在变成 taste layer，而不是单纯页面生成

来源： OpenAI Skills / Figma MCP / 设计社区讨论
关键词： Taste Skill / DESIGN.md / Preview Annotation

AI 生成 UI 的瓶颈正在变化：过去是「能不能画出来」，现在是「能不能稳定符合品味、品牌、细节和实现约束」。

OpenAI Skills 里已经出现面向 Figma 到代码的结构化 skill，强调 design token、Figma MCP、组件边界和 visual fidelity。OpenAI 与 Figma 相关 workflow 也说明，设计 Agent 不只是把图变成代码，而是要在 canvas、code、preview、annotation 之间反复对齐。

这背后的本质是：设计能力正在从 prompt 变成 taste layer。

一个好的 design skill，不应该只是「生成一个好看的页面」，而应该把品牌审美、组件规范、字体、间距、动效、截图反馈和实现约束沉淀下来。

小黑用味觉筛子筛掉随机生成，把品牌、组件、间距和截图反馈沉淀成品味层。 — Taste layer 的核心，是把审美、组件约束和截图反馈变成稳定资产，而不是每次重新抽奖。

产品含义： 应该提供 taste library、design rules、preview annotation、implementation fidelity checker。

架构含义： design skill、视觉参考、组件约束、截图 QA、DOM diff、人工批注要连起来。否则每次生成都像重新抽奖。

可构建产物： Design Skill Pack + Visual QA Runner + Taste Profile。

风险： Taste skill 很容易变成主观提示词，最后不可评测、不可复现。必须引入截图评测、组件规范和视觉 diff。

下一步验证： 拿同一个 Reader Mac App prompt，分别跑 Codex、Claude、Hermes，对比三件事：视觉一致性、实现保真度、修改后的细节损失。

进一步阅读：

信号 4：Claude data analytics 说明生产级 Agent 的核心是 eval + data foundation

来源： Anthropic / Claude Data Analytics
关键词： Data Agent / Evals / Context Drift

Anthropic 披露，内部约 95% 的 business analytics queries 已由 Claude 自动化完成，整体准确率约 95%。

但它真正有价值的地方不是这个数字，而是它指出了数据 Agent 的核心问题：不是 SQL 能力，而是上下文、指标口径、数据模型映射和验证机制。

数据 Agent 最容易制造「精确幻觉」：答案格式很好、语气很自信、SQL 也看起来合理，但它可能用了错误的表、错误的字段、过期的指标定义，或者误解了业务概念。

数据 Agent 的可靠性不是一次 prompt 调出来的，而是被持续评测和维护出来的。

小黑拿着放大镜检查数据表、指标字典、查询轨迹和评测样例。 — 数据 Agent 的难点不是会不会写 SQL，而是能不能绑定指标口径、上下文来源和失败样例。

产品含义： 数据 Agent 必须有 Metric Dictionary、Context Refresh、Eval Case Builder、引用链和结果置信度。

架构含义： Agent 输出不能只是最终答案，还要绑定 query/tool trace、数据字典版本、上下文来源和 eval 结果。

可构建产物： Data Agent Readiness Checklist + Metric Eval Suite。

风险： 没有真实历史错误样例，就很容易高估 Agent 的数据分析能力。

下一步验证： 构建 20 个真实业务指标问题，故意引入 schema drift、指标口径变化、字段重名、时间窗口差异，记录 Agent 的失败模式。

进一步阅读：

信号 5：AI Operator 的难点来自真实业务混乱，不是 demo 不够酷

来源： Kimi Work / SMB workflow 讨论 / AI Operator 方向观察
关键词： AI Operator / SMB Chaos / Docs-as-Runtime

Kimi Work 从 coding 场景扩展到 working 场景，是一个很明显的方向信号：Agent 正在从开发者工具进入普通知识工作者的桌面工作流。

但真实业务不是整洁的 demo。中小企业的工作流常常是混乱的：客户在微信里改需求，邮件里发新版 PDF，飞书里补一句确认，文件名不规范，历史版本混在一起，最后还期待团队「都知道」。

所以 AI Operator 的核心不是让 Agent 全自动接管业务，而是先把混乱工作流整理成可追踪、可确认、可更新的状态机。

小黑把微信、邮件、文档、聊天里的变更归并到操作台，生成确认项和下一步动作。 — AI Operator 的第一步不是全自动，而是把多渠道混乱变成可确认、可追踪的状态机。

产品含义： 应该做 change ledger、context inbox、docs-as-runtime、operator console。先让 Agent 帮人归并、提醒、确认、生成下一步，而不是直接替人做不可逆动作。

架构含义： 需要事件归并、冲突检测、来源可信度、人工确认和任务状态账本。

可构建产物： AI Operator Console：聚合多渠道变更，生成确认项、风险提示和下一步动作。

风险： SMB 数据越混乱，自动化误操作风险越高。早期不要追求 full automation，应该优先做 assistive operator：协助、确认、记录、追踪。

下一步验证： 找一个真实客户流程，画出四张图：渠道图、状态图、异常图、人工确认点。只有这个流程图跑通，Agent 才值得进入自动化。

进一步阅读：

今日总判断

Agent OS 的核心不是聊天框，而是五个系统：

持久工作空间：保管文件、状态、版本和产物；
Workflow Templates：把可重复工作沉淀成可执行流程；
Skill Registry：把能力资产标准化、复用化、可安装；
Context + Eval：把上下文、指标、验证和失败样例纳入系统；
Operator Console：让人能看见、确认、回滚和审计 Agent 的动作。

应加强赌注： Agent Workspace + Skill Workshop + Data/Design Eval。

真正有价值的不是一次生成，而是把成功经验、文件状态、上下文来源和验收标准沉淀为系统资产。

应延后赌注： 完全自动化 SMB 工作流和开放 skill marketplace。

当前阶段更应该先做确认、审计、私有 registry 和人工可控。

下一步验证： 用一个真实工作流做端到端 prototype：

多渠道输入 → Agent 归并状态 → 生成产物 → 人工审查 → 形成 run ledger → 沉淀成 skill。

一句话收束：

Agent 的下半场，不是谁更会生成，而是谁更会保管工作状态。