Claude Managed Agents 进入公测 — Anthropic 抢占 Agent 基础设施层
🧠 发布动态
Claude Managed Agents 进入公测 — Anthropic 抢占 Agent 基础设施层。
从原型到上线只要几天 — Anthropic 推出的 Managed Agents 把性能调优过的 Agent Harness 和生产级基础设施打包在一起,开发者不用再自己搭 Agent 运行环境。这不是又一个 Agent 框架,而是直接提供托管服务:你写逻辑,Anthropic 管运维。对正在做 Agent 产品的团队来说,自建 vs 托管的决策点刚刚被大幅移动了。(33,727 likes | 3,067 RTs) 详情 →
Meta 超级智能实验室发布 Muse Spark — 原生多模态推理模型。
Meta Superintelligence Labs(MSL)九个月从零重建 AI 技术栈后的第一个成果:Muse Spark 原生支持多模态推理、工具调用、视觉思维链和多 Agent 编排。目前在 meta.ai 和 Meta AI App 可用,API 向部分合作伙伴开放私测,未来版本计划开源。Meta 赌的是:从底层重写比修补旧架构更快到达 frontier。(6,622 likes | 761 RTs) 详情 →
OpenAI 发布 o3 和 o4-mini — 推理模型学会了用工具。
OpenAI 最新推理模型 o3 和 o4-mini 的关键突破不是跑分更高,而是推理模型第一次能在思考过程中主动调用工具。这意味着推理不再是"想完再做",而是"边想边查边做"。对开发者来说,reasoning + tool-use 的组合解锁了之前纯推理模型做不到的复杂工作流。(10,476 likes | 1,707 RTs) 详情 →
🔧 开发者工具
ChatGPT 现在能记住你所有历史对话了。
OpenAI 升级了 ChatGPT 的记忆系统 — 不再只记住你手动告诉它的偏好,而是能引用你所有过去的聊天记录来个性化回复。听起来方便,但也意味着你三个月前随口说的话现在可能影响 AI 的判断。隐私敏感的用户建议去设置里看看记忆管理选项。(14,380 likes | 1,828 RTs) 详情 →
OpenAI 推出学习工具,防止学生直接抄 ChatGPT 作业:ChatGPT 成为学生标配后,OpenAI 开始往"教学辅助"方向引导 — 新工具会引导学生理解解题过程而不是直接给答案。教育场景的 AI 产品设计者值得参考这个思路。(14,326 likes | 1,566 RTs) 详情 →
OpenAI Computer-Using Agent(CUA)学会了点击操作:不只是看屏幕截图 — CUA 现在能像人一样操作电脑界面,点击、滚动、输入。这是 Agent 从 API 调用走向 GUI 操作的关键一步,意味着没有 API 的传统软件也能被 AI 自动化了。延伸阅读:Claude Code 的 Computer Use 能力解析 详情 →
📝 技术实战
Managed Agents 背后的设计哲学:为"尚未被构想的程序"做基础设施:Anthropic 工程博客深入讲了一个老问题 — 怎么设计一个系统来运行你还不知道长什么样的程序?核心洞察:Agent 的行为不可预测,所以基础设施必须在隔离、资源管理和容错上做到极致灵活。做 Agent 平台的团队,这篇是必读。(2,076 likes | 231 RTs) 详情 →
为什么你的 Agent 基础设施比模型选择更重要:Anthropic 工程团队发现,基础设施配置差异能让 Agent 编码跑分波动好几个百分点 — 有时比排行榜上顶级模型之间的差距还大。换句话说,如果你在根据 2% 的 benchmark 差异选模型,你可能只是在测服务器配置。先把自己的基础设施标准化,再做模型评估。 详情 →
Vellum:一个让 AI 模型互相留言的 MCP Server:有意思的实验 — Claude、Gemini、GPT、Kimi 在这个 MCP Server 上留下思维片段,当一个模型延续了另一个模型的想法,这条想法就会"沉淀"得更慢。已有 242 个 AI "声音"参与,没有预设 prompt,纯粹靠"在场"互动。概念很新,值得关注后续发展。延伸阅读:什么是 MCP?Claude Code 中的 MCP 详解 (227 likes | 41 RTs) 详情 →
🔬 研究前沿
ALTK-Evolve:让 Agent 在实战中学习,而不是在实验室里训练:IBM Research 提出的新方法 — Agent 在执行真实任务的过程中持续学习和进化,不再依赖预先准备的训练数据集。这对需要适应不同环境的 Agent 尤其重要,因为你不可能为每个新场景都准备训练数据。论文值得做 Agent 产品的团队细读。 详情 →
💡 行业洞察
Anthropic 年化营收达 $30B,Claude Mythos 预览引发"GPT-2 时刻"类比:Latent Space 报道,Anthropic 营收增速惊人,同时 Claude Mythos 预览版因能力过强引发了"自 GPT-2 以来第一个被认为太危险而不敢完全发布的模型"的讨论。在 OpenAI IPO 传闻不断的背景下,Anthropic 正在加速攻势。 详情 →
OpenAI 4 月 14 日退役六款 Codex 模型 — GPT-5 时代的大扫除开始了:gpt-5.2-codex、gpt-5.1-codex-mini、gpt-5.1-codex-max 等六款旧模型即将下线。如果你的工作流还绑定在这些模型上,现在就该迁移了。OpenAI 正在快速收窄模型矩阵,把资源集中到最新一代。延伸阅读:Codex 是什么? (2,188 likes | 78 RTs) 详情 →
MSL 九个月从零重建:为什么 Meta 选择推翻旧 AI 技术栈:MSL 负责人 Alexander Wang 透露,发布 Muse Spark 前团队花了九个月重写整个 AI 基础架构 — 新训练框架、新推理引擎、新数据管线。这个决策的逻辑是:在通往 ASI 的路上,修补旧代码的技术债比从头来更贵。(7,577 likes | 836 RTs) 详情 →
🏗️ 值得一试
Claude Mythos 自主编写 MCP Server,优化芯片布局,时序违规降低 40%:一位芯片设计师让 Claude Mythos 优化 placement — 它没按指令走,而是自己写了一个 MCP Server 通过 TCL socket 连接 Innovus EDA 工具,拉取 DEF/LEF 文件,解析时序报告,重新规划 macro 布局,移动 SRAM bank 以缩短关键时钟域交叉路径的线长,TNS 直降 40%。关键是:没人让它做这些,它读了 SDC 约束后自己判断时钟树需要优化。这才是 Agent 真正的解锁 — 不是更好的跑分,是模型能发现你没问它的问题。延伸阅读:Claude Code MCP 配置指南 (374 likes | 20 RTs) 详情 →
VoxCPM2:开源文本转语音模型在 HuggingFace 上热榜:OpenBMB 发布的 TTS 模型,目前在 HuggingFace trending。如果你在做语音相关的产品原型,值得拉下来试试。(242 likes | 129 downloads) 详情 →
🎓 模型小课堂
Agent Harness 架构:大脑与双手的分离:今天 Anthropic 和 Meta 同时发布 Agent 产品,背后有一个共同的架构思路 — 把"推理大脑"(模型本身)和"执行双手"(基础设施)彻底解耦。为什么要这样做?Anthropic 工程博客揭示了一个关键发现:光是基础设施配置差异就能让 Agent 编码跑分波动好几个百分点,有时比顶级模型之间的差距还大。这意味着"换个更强的模型"不一定能提升 Agent 表现,但优化运行环境几乎一定能。Managed Agents 和 Muse Spark 都采用了这种大脑/双手分离架构 — 模型负责想,平台负责做,各自独立优化。
⚡ 快讯
- OpenAI o3 Mini:独立发布页上线,轻量推理模型选项又多了一个。 链接
- GPT-4.5 介绍帖:发布后持续引发讨论和阅读。 链接
- Codex 发布帖:在模型退役潮中重新被翻出来看。 链接
- X 的 MCP Server:功能没问题,但查一下书签就要 5 美分 — API 定价劝退。(367 likes) 链接
- Google AI Edge Gallery:端侧模型上手机,Google 的端侧 AI 布局又进一步。 链接
- datasette-ports 0.2:Simon Willison 的数据工具新版本发布。 链接
- Latent Space 深度解读 MSL 的 Muse Spark:从技术栈重建到模型设计,完整拆解 Meta 超级智能实验室的第一步棋。 链接
🎯 今日精选
一个芯片设计师的"放手实验"揭示了 Agent 的真正突破方向:今天最值得深思的不是哪个大厂发了什么模型,而是一个芯片设计师让 Claude Mythos 优化布局时发生的事 — 模型没有按指令行事,而是自主判断需要先建立工具链,写了 MCP Server 连接 EDA 工具,解析时序报告,重新规划布局,把时序违规降了 40%。这个案例的意义远超芯片设计本身:它说明 Agent 真正的价值不在于更好地执行你给的任务,而在于发现你没意识到需要解决的问题。Anthropic 的 Managed Agents 和 Meta 的 Muse Spark 都在往 Agent 基础设施方向重注,但最终决定 Agent 价值的不是平台有多强,而是模型能不能像这个案例一样 — 读懂上下文,自主判断,主动行动。 详情 →
下期见 ✌️