Claude Code 上线 Agent View：一个面板管所有 AI 会话

🧠 发布动态

Claude Code 上线 Agent View：一个面板管所有 AI 会话。

终于来了 — 运行 claude agents 就能看到所有正在跑的 Claude Code 会话，状态、进度、日志一目了然。这不是花哨的 UI，而是多 Agent 工作流的基础设施：当你同时让三个 Agent 分头改代码、跑测试、写文档时，你需要一个地方看全局。作为 Research Preview 发布，官方推文 10,169 likes，是 Claude Code 有史以来互动最高的功能发布。(10,169 likes | 640 RTs) 详情 →

Anthropic 在 AWS 上线原生 Claude API — 不走 Bedrock。

AWS 客户现在可以直接用 Claude 的 Messages API、Files API、Managed Agents 和代码执行，走 AWS 计费和 IAM 认证。关键词是"原生" — 不再受 Bedrock 的功能滞后和 API 差异限制。对那些因为 Bedrock 限制而没法用 Claude 全部能力的企业团队来说，这是个解锁。详情 →

OpenAI 发布 Daybreak：用 frontier 模型武装网络防御。 OpenAI 把前沿模型、Codex 和安全合作伙伴打包成网络安全方案。几天前 Anthropic 刚发了 Mythos 渗透测试结果，现在 OpenAI 跟进 — frontier lab 正在抢占网络安全这个垂直赛道。(4,630 likes | 458 RTs) 详情 →

Qwen 发布 WebWorld：专为 Web Agent 打造的开源模型。 8B/14B/32B 三个规格，Apache 2.0 协议，MiniWob++ 上比前代开源模型高 9.9%，WebArena 高 10%。Web 自动化一直是闭源 API 的天下，现在终于有了能打的开源选手。国内开发者可以直接拿 8B 版本跑起来试试。(441 likes | 69 RTs) 详情 →

MiniCPM-V-4.6 继续小模型多模态路线。 OpenBMB 更新了 MiniCPM 视觉语言模型，这个系列一贯特点是小身材大能量 — 参数量不大但多模态跑分一直超预期。适合端侧部署和资源受限场景。(179 likes) 详情 →

🔧 开发者工具

Claude Code v2.1.139：/goal 让单会话变自主循环。

除了 Agent View，这个版本还加了 /goal 命令 — 设定一个完成条件，Claude 会跨多轮持续工作直到达标。支持交互模式、-p 参数和 Remote Control。Agent View + /goal 组合起来，Claude Code 从"高级补全工具"正式进化为多 Agent 编排器。详情 →

Codex 接入 OpenAI 原生插件。 现在可以在 Codex 里直接调用 OpenAI API，不用再在文档和编辑器之间来回复制粘贴。对 OpenAI 技术栈的开发者来说是个实打实的效率提升。(1,580 likes | 109 RTs) 详情 →

Anthropic Python SDK v0.101.0 新增 AWS 客户端。 配合上面的 AWS 原生 Claude 平台，SDK 层面的支持同步到位了 — 生产代码可以直接用。详情 →

📝 技术实战

Karpathy 验证：让 LLM 输出 HTML 是正确的。

9,452 likes 不是没原因的 — Karpathy 建议直接让 LLM 把回答结构化为 HTML，用来做幻灯片、可视化、结构化文档。这和 swyx 上周的"HTML 是新 Markdown"论点一脉相承，但 Karpathy 给出了更直接的实操建议。下次写 prompt 试试加一句"structure your response as HTML"。(9,452 likes | 894 RTs) 详情 →

Simon Willison 把 LLM 塞进了 Unix Shebang 行。 用他的 LLM CLI 工具做 shebang 解释器，意味着你可以写一个纯英文的可执行脚本，或者挂 YAML 模板。hack 虽小，但对脚本化工作流的想象空间不小。(233 likes | 12 RTs) 详情 →

Agentic Search 就是 80% 的 Context Engineering。 Leonie 的 workshop 核心论点：大多数 Agent 失败不是推理失败，而是检索失败 — 没把对的信息放进上下文窗口。覆盖了 shell 工具、语义搜索、查询执行等全套工具链，讲清了每种工具在什么场景下会崩。(237 likes | 36 RTs) 详情 →

🔬 研究前沿

Mollick 指出 AI 的创意趋同问题。 AI 模型倾向于收敛到相似的想法，这对科学研究和创意工作是个根本性限制。好消息是新论文表明可以专门针对创造力优化模型 — 但主流 lab 目前都没在这个维度上发力。(357 likes | 44 RTs) 详情 →

Lilian Weng 揭秘训练日志：12 个版本，137 页。 OpenAI 的 Lilian Weng 分享了一次训练的幕后 — 12 轮迭代、137 页文档记录。这不是在秀数字，而是在说：frontier 模型训练本质上是密集的人-人协作工程，不是按个按钮等结果。难得的一线视角。(268 likes | 16 RTs) 详情 →

💡 行业洞察

OpenAI 成立部署子公司，要拿下企业最后一公里。

OpenAI 联合 19 家投资机构和咨询公司成立控股子公司，专门帮企业落地 AI 部署。这是一个战略转向信号 — 光卖 API 拿不下企业市场，真正的利润在集成和部署的"最后一公里"。从"最好的模型赢"变成"最好的部署伙伴赢"，竞争逻辑变了。(8,073 likes | 956 RTs) 详情 →

谷歌确认：犯罪黑客已经用 AI 发现了重大漏洞。 纽约时报报道，从理论风险到已确认的真实利用。这直接验证了 OpenAI Daybreak 和 Anthropic Mythos 安全工作的紧迫性 — AI 攻防不再是假设场景。(96 likes | 68 RTs) 详情 →

Gemini Flash 3.2 基本确认将在 Google I/O 发布。 Bindureddy 透露他们已经在 70% 的定时任务中用 Flash 替换了 GPT 5.5 low。如果 Flash 3.2 能全面替代 GPT 5.5 low，高并发推理的性价比格局会大变。(217 likes | 5 RTs) 详情 →

🏗️ 值得一试

用 Swift 训练 LLM：矩阵乘法从 Gflop/s 到 Tflop/s。 一篇硬核技术文章，手把手带你在 Swift 里实现 LLM 训练，把矩阵乘法从千兆浮点优化到万亿浮点。如果你好奇 PyTorch 抽象层下面到底发生了什么，这篇值得花时间读。(209 likes | 11 RTs) 详情 →

🎓 模型小课堂

Context Engineering（上下文工程）：今天 Agent View 的发布和 Agentic Search 的讨论，底层解决的其实是同一个问题 — 怎么在对的时机把对的信息送进对的上下文窗口。Context Engineering 就是结构化、筛选和压缩信息供大语言模型（LLM）消费的过程。多会话 Agent 之所以需要仪表板，是因为每个会话的上下文都在独立演化，你需要全局视图来协调。而大多数 Agent 失败不是模型推理不行，是上下文里根本没有解决问题所需的信息。上下文工程做得好不好，直接决定了 Agent 靠不靠谱。

⚡ 快讯

Agent View 推文：Claude Code 官方推文 10K likes，史上最高互动。链接
Claude 宪法有声书：Amanda Askell 和 Joe Carlsmith 亲自朗读并解读 Claude 的设计哲学。(1,907 likes | 224 RTs) 链接
Consensus 融资 $30M：250 万研究者在用，从学术工具走向主流研究基础设施。(207 likes | 55 RTs) 链接
资本才是 AI 真正的瓶颈：McKinsey 预测 2030 年数据中心需求 156GW，投资缺口高达 $7T。链接
LangChain Core 1.4.0：Pydantic v1 导入修复和依赖更新，1.x 线趋于稳定。链接
Interfaze：新 Transformer 变体，声称在大规模场景下精度更优，待同行验证。(100 likes | 27 RTs) 链接

🎯 今日精选

OpenAI 成立部署子公司 — API 收入撑不起企业野心：OpenAI 拉着 19 家投资和咨询机构成立控股子公司专做企业 AI 部署，这个动作的信号比表面看起来大得多。它说明 OpenAI 内部已经认定：光靠卖 API 抓不住企业客户的真金白银，真正的利润藏在集成、定制、落地的最后一公里。这从根本上改变了竞争格局 — 不再是"谁的模型跑分高谁赢"，而是"谁能帮企业把 AI 用起来谁赢"。对 Anthropic、Google 来说，这是一个需要回应的战略信号；对企业买家来说，选 AI 供应商的标准从"模型能力"扩展到了"部署能力 + 生态支持"。详情 →

下期见 ✌️