Anthropic 发布 Fable 5 和 Mythos 5 — 自 Opus 4.5 以来最大能力跃升

🧠 发布动态

Anthropic 发布 Fable 5 和 Mythos 5 — 自 Opus 4.5 以来最大能力跃升。

Claude Fable 5 是 Mythos 级别模型的安全通用版，几乎所有基准测试登顶。Mythos 5 则是纯粹的推理怪兽。Fable 5 的核心卖点不是某一项跑分，而是在长时间复杂任务上的持续输出质量 — 跑一个小时的 Agent 会话，最后的代码质量不塌方。claude.ai 和 API 已经可用，现在就能试。详情 →

Gemini 3.5 Live Translate：70+ 语言实时语音翻译，边听边译。

Google 做了一件很多人等了很久的事 — 真正的流式语音翻译，不需要等对方说完一句话再翻。支持 70+ 语言，已经在 AI Studio、Google Translate 和 Meet 里上线。对跨国团队来说，这可能比任何新模型都实用。(1,787 likes | 233 RTs) 详情 →

Gemma 4 12B：一个模型，四种模态，不需要编码器。 Google 开源了 Gemma 4 12B — 用统一架构直接处理文本、图像、音频和视频，没有单独的视觉编码器。已经有 QAT GGUF 版本，消费级 GPU 就能跑。对不想部署四个模型的团队来说，这是个很实在的选择。详情 →

Cohere 入局代码模型：North Mini Code。 Cohere 发布了第一个开发者向的代码模型，已经在 HuggingFace 上开放下载。小模型、低成本，瞄准的是不需要 frontier 模型但需要代码能力的场景。代码模型赛道又多了一个选手。(153 likes | 1.8K downloads) 详情 →

🔧 开发者工具

Claude Code 解锁嵌套子 Agent — Agent 派生 Agent，最深五层。

Claude Code 现在支持嵌套子 Agent（最深 5 层），Agent 可以根据任务复杂度自动拆分并委派子任务。这不是花哨功能 — 对大型代码库的重构、多文件变更这类任务，嵌套 Agent 能显著改善上下文管理。更新到 v2.1.170 就能用。(4,981 likes | 250 RTs) 详情 →

Claude Managed Agents 加入定时调度和密钥保险箱。 生产环境跑 Agent 缺的两块拼图补上了：cron 定时执行 + 环境变量安全注入。之前想让 Agent 每天定时跑个任务还得自己搭调度，现在原生支持了。详情 →

OpenAI Responses API 现在返回图片搜索结果。 之前只能搜文本，现在 web search 会同时返回图片结果。做电商、旅游、视觉搜索类应用的可以直接用了，不需要再单独接图片搜索 API。(1,486 likes | 84 RTs) 详情 →

📝 技术实战

用好 Fable 5 的四个技巧。 Anthropic 开发者关系负责人 Alex Albert 分享了实战经验：给 Fable 更大的任务、默认用 xhigh/high effort、重写你的 CLAUDE.md — 旧指令会把模型锚定在之前的行为模式上。换句话说，Fable 5 能力上限高了很多，但你得更新你的使用方式才能吃到红利。(916 likes | 42 RTs) 详情 →

Fable 5 的 tokenizer 变了 — 同样的文本多 30% 的 token。 这条很关键：Fable 5 用的是 Opus 4.7 的 tokenizer，同样的 prompt 会产生比之前多约 30% 的 token。如果你按旧模型的 token 数估算成本，账单会给你惊喜。用 token counting API 指定 model: 'claude-fable-5' 重新测一遍。详情 →

自验证循环：Fable 长时间 Agent 会话的关键。 模型越强，能跑的 Agent 会话越长，但长会话里错误会累积。Boris Cherny 指出，自验证循环（Self-verification loops）是让 Fable 长时间自主运行时保持输出质量的核心机制 — 让模型定期检查自己的工作，而不是跑完才发现前面就歪了。(1,151 likes | 80 RTs) 详情 →

🔬 研究前沿

多 Agent Mythos 团队写大型程序比单 Agent 快 3 倍。 Anthropic 放出数据：多个 Mythos Agent 协作完成大型编程任务，速度是单 Agent 的 3 倍。这不是理论推演，是实测结果。如果你的代码库够大，多 Agent 架构的 ROI 已经很明确了。(25 likes | 1 RTs) 详情 →

独立评测：Fable 98% 的任务和 GPT-5.5 持平，难题上拉开差距。 一份独立内部评测显示，Fable 5 在 98% 的编码任务上和 GPT-5.5/Opus 4.8 表现一致，但成本是 2 倍。亮点在最难的 2% — 那些其他模型搞不定的任务，Fable 能交出更好的结果。实际策略：做模型路由，难题给 Fable，日常任务用便宜的。(324 likes | 15 RTs) 详情 →

FrontierCode：超过一半的 SWE-Bench 解法通不过真实代码审查。 Latent Space 深度分析了 FrontierCode 基准 — 核心发现是 SWE-Bench 上的"正确"解法，拿去做 code review 有超过一半会被打回。跑分高不等于代码好，选基准测试的时候要想清楚你在测什么。详情 →

DeepMind 公布欧洲机器人投资战略。 Google DeepMind 宣布加大在欧洲机器人生态的投入，VLA-JEPA 和具身智能正在快速推进。对关注机器人赛道的来说，这是一个值得持续跟踪的方向。详情 →

💡 行业洞察

Karpathy：Fable 5 是"大版本级跃升"。

Andrej Karpathy 把 Fable 5 和去年 11 月的 Claude 4.5 相提并论，认为是同等量级的能力跳跃。他特别提到 Fable 在长时间复杂问题求解上的表现 — 不是跑个 5 分钟的 demo，是持续几个小时的硬核任务。这是今天 engagement 最高的独立评价。(14,840 likes | 1,347 RTs) 详情 →

Anthropic Claude Code 负责人："第三个时代今天悄悄开始了。" Felix Rieseberg — Claude Code 和 Cowork 的负责人 — 认为 Fable 5 标志着 AI 从"工具"到"协作者"的转变。当模型能维持多小时的自主会话并自我验证时，开发者和 AI 的关系就不再是"使用工具"，而是"委派给同事"。这会改变我们架构软件的方式，不只是写代码的方式。(4,983 likes | 331 RTs) 详情 →

苹果在欧盟撤回 AI 版 Siri。 苹果未能获得欧盟 AI 法案的豁免，决定不在欧盟上线 AI 驱动的 Siri。这是一个标志性事件 — 说明欧盟 AI 监管不是纸老虎，真的能让万亿市值公司的产品发不出去。做出海产品的，合规这一关得提前规划。(343 likes | 575 RTs) 详情 →

🏗️ 值得一试

一个开发者用 GPT-5.5 替掉了整条 OCR 流水线，翻译了 2.3 万篇中文论文。 ChinaRxiv 上的 23,000+ 篇中文研究论文现在有了更好的英文翻译 — 一个人用 GPT-5.5 替换了传统 OCR + 翻译管线，翻译质量和完整度都更好。这是 LLM 在实际工程中替代传统管线的教科书案例。做中文学术搜索的可以去 ChinaRxiv 看看。(729 likes | 58 RTs) 详情 →

🎓 模型小课堂

Tokenizer 差异（Tokenizer Divergence）：不同模型家族用不同的 tokenizer 把文本切成 token — 同样一段话，Fable 5 的 tokenizer 会比之前的 Claude 模型多产生约 30% 的 token。这意味着什么？同样的 prompt，换个模型，账单可能差很多。很多人习惯用旧模型的 token 数来估算成本，切换模型家族后才发现预算爆了。正确做法：用目标模型的 token counting API 重新测量，别用旧数字拍脑袋。

⚡ 快讯

Claude Code v2.1.170：Fable 5 支持、VS Code 终端 transcript 修复、嵌套子 Agent。链接
Codex CLI 0.139.0：code 模式支持 web search，MCP 工具 schema 更完整。(152 likes | 10 RTs) 链接
Fable 5 竞品拒绝争议：有人发现 Fable 5 可能拒绝帮竞争对手构建竞品，引发热议。(314 likes | 141 RTs) 链接
Bezos 押注类脑 AI：投 5 亿美元给 Flourish，目标是 50 瓦功耗的持续学习系统。(139 likes | 14 RTs) 链接
KAN 上 FPGA：Kolmogorov-Arnold 网络在 FPGA 上实现超快推理，边缘 ML 的新可能。(139 likes | 15 RTs) 链接
Agent 链接 HuggingFace Spaces 造 3D 画廊：一个 Agent 自主串联两个 Spaces，建了个巴黎 3D 画廊。模式比结果更有意思。链接

🎯 今日精选

"第三个时代"不是炒作 — 当 AI 从工具变成协作者，软件架构也要跟着变。 Felix Rieseberg 说的"第三个时代"不是空话。当模型能维持多小时的自主会话、自己验证自己的输出时，开发者和 AI 的关系从"使用工具"变成了"委派给协作者"。这不只是效率提升 — 它改变的是我们架构软件的方式。以前你设计系统是假设人来做决策，AI 来执行；现在你需要设计系统让 AI 能自主决策、自我修正、在出错时回退。多 Agent Mythos 团队 3 倍速写代码、嵌套子 Agent 5 层深度委派 — 这些不是 demo，是新架构范式的早期信号。对开发者来说，现在该认真想想：你的代码库准备好被"委派"了吗？详情 →

下期见 ✌️