Anthropic 发布 Fable 5 和 Mythos 5 — 自 Opus 4.5 以来最大能力跃升
🧠 发布动态
Anthropic 发布 Fable 5 和 Mythos 5 — 自 Opus 4.5 以来最大能力跃升。
Claude Fable 5 是 Mythos 级别模型的安全通用版,几乎所有基准测试登顶。Mythos 5 则是纯粹的推理怪兽。Fable 5 的核心卖点不是某一项跑分,而是在长时间复杂任务上的持续输出质量 — 跑一个小时的 Agent 会话,最后的代码质量不塌方。claude.ai 和 API 已经可用,现在就能试。 详情 →
Gemini 3.5 Live Translate:70+ 语言实时语音翻译,边听边译。
Google 做了一件很多人等了很久的事 — 真正的流式语音翻译,不需要等对方说完一句话再翻。支持 70+ 语言,已经在 AI Studio、Google Translate 和 Meet 里上线。对跨国团队来说,这可能比任何新模型都实用。(1,787 likes | 233 RTs) 详情 →
Gemma 4 12B:一个模型,四种模态,不需要编码器。 Google 开源了 Gemma 4 12B — 用统一架构直接处理文本、图像、音频和视频,没有单独的视觉编码器。已经有 QAT GGUF 版本,消费级 GPU 就能跑。对不想部署四个模型的团队来说,这是个很实在的选择。 详情 →
Cohere 入局代码模型:North Mini Code。 Cohere 发布了第一个开发者向的代码模型,已经在 HuggingFace 上开放下载。小模型、低成本,瞄准的是不需要 frontier 模型但需要代码能力的场景。代码模型赛道又多了一个选手。(153 likes | 1.8K downloads) 详情 →
🔧 开发者工具
Claude Code 解锁嵌套子 Agent — Agent 派生 Agent,最深五层。
Claude Code 现在支持嵌套子 Agent(最深 5 层),Agent 可以根据任务复杂度自动拆分并委派子任务。这不是花哨功能 — 对大型代码库的重构、多文件变更这类任务,嵌套 Agent 能显著改善上下文管理。更新到 v2.1.170 就能用。(4,981 likes | 250 RTs) 详情 →
Claude Managed Agents 加入定时调度和密钥保险箱。 生产环境跑 Agent 缺的两块拼图补上了:cron 定时执行 + 环境变量安全注入。之前想让 Agent 每天定时跑个任务还得自己搭调度,现在原生支持了。 详情 →
OpenAI Responses API 现在返回图片搜索结果。 之前只能搜文本,现在 web search 会同时返回图片结果。做电商、旅游、视觉搜索类应用的可以直接用了,不需要再单独接图片搜索 API。(1,486 likes | 84 RTs) 详情 →
📝 技术实战
用好 Fable 5 的四个技巧。 Anthropic 开发者关系负责人 Alex Albert 分享了实战经验:给 Fable 更大的任务、默认用 xhigh/high effort、重写你的 CLAUDE.md — 旧指令会把模型锚定在之前的行为模式上。换句话说,Fable 5 能力上限高了很多,但你得更新你的使用方式才能吃到红利。(916 likes | 42 RTs) 详情 →
Fable 5 的 tokenizer 变了 — 同样的文本多 30% 的 token。 这条很关键:Fable 5 用的是 Opus 4.7 的 tokenizer,同样的 prompt 会产生比之前多约 30% 的 token。如果你按旧模型的 token 数估算成本,账单会给你惊喜。用 token counting API 指定 model: 'claude-fable-5' 重新测一遍。 详情 →
自验证循环:Fable 长时间 Agent 会话的关键。 模型越强,能跑的 Agent 会话越长,但长会话里错误会累积。Boris Cherny 指出,自验证循环(Self-verification loops)是让 Fable 长时间自主运行时保持输出质量的核心机制 — 让模型定期检查自己的工作,而不是跑完才发现前面就歪了。(1,151 likes | 80 RTs) 详情 →
🔬 研究前沿
多 Agent Mythos 团队写大型程序比单 Agent 快 3 倍。 Anthropic 放出数据:多个 Mythos Agent 协作完成大型编程任务,速度是单 Agent 的 3 倍。这不是理论推演,是实测结果。如果你的代码库够大,多 Agent 架构的 ROI 已经很明确了。(25 likes | 1 RTs) 详情 →
独立评测:Fable 98% 的任务和 GPT-5.5 持平,难题上拉开差距。 一份独立内部评测显示,Fable 5 在 98% 的编码任务上和 GPT-5.5/Opus 4.8 表现一致,但成本是 2 倍。亮点在最难的 2% — 那些其他模型搞不定的任务,Fable 能交出更好的结果。实际策略:做模型路由,难题给 Fable,日常任务用便宜的。(324 likes | 15 RTs) 详情 →
FrontierCode:超过一半的 SWE-Bench 解法通不过真实代码审查。 Latent Space 深度分析了 FrontierCode 基准 — 核心发现是 SWE-Bench 上的"正确"解法,拿去做 code review 有超过一半会被打回。跑分高不等于代码好,选基准测试的时候要想清楚你在测什么。 详情 →
DeepMind 公布欧洲机器人投资战略。 Google DeepMind 宣布加大在欧洲机器人生态的投入,VLA-JEPA 和具身智能正在快速推进。对关注机器人赛道的来说,这是一个值得持续跟踪的方向。 详情 →
💡 行业洞察
Karpathy:Fable 5 是"大版本级跃升"。
Andrej Karpathy 把 Fable 5 和去年 11 月的 Claude 4.5 相提并论,认为是同等量级的能力跳跃。他特别提到 Fable 在长时间复杂问题求解上的表现 — 不是跑个 5 分钟的 demo,是持续几个小时的硬核任务。这是今天 engagement 最高的独立评价。(14,840 likes | 1,347 RTs) 详情 →
Anthropic Claude Code 负责人:"第三个时代今天悄悄开始了。" Felix Rieseberg — Claude Code 和 Cowork 的负责人 — 认为 Fable 5 标志着 AI 从"工具"到"协作者"的转变。当模型能维持多小时的自主会话并自我验证时,开发者和 AI 的关系就不再是"使用工具",而是"委派给同事"。这会改变我们架构软件的方式,不只是写代码的方式。(4,983 likes | 331 RTs) 详情 →
苹果在欧盟撤回 AI 版 Siri。 苹果未能获得欧盟 AI 法案的豁免,决定不在欧盟上线 AI 驱动的 Siri。这是一个标志性事件 — 说明欧盟 AI 监管不是纸老虎,真的能让万亿市值公司的产品发不出去。做出海产品的,合规这一关得提前规划。(343 likes | 575 RTs) 详情 →
🏗️ 值得一试
一个开发者用 GPT-5.5 替掉了整条 OCR 流水线,翻译了 2.3 万篇中文论文。 ChinaRxiv 上的 23,000+ 篇中文研究论文现在有了更好的英文翻译 — 一个人用 GPT-5.5 替换了传统 OCR + 翻译管线,翻译质量和完整度都更好。这是 LLM 在实际工程中替代传统管线的教科书案例。做中文学术搜索的可以去 ChinaRxiv 看看。(729 likes | 58 RTs) 详情 →
🎓 模型小课堂
Tokenizer 差异(Tokenizer Divergence):不同模型家族用不同的 tokenizer 把文本切成 token — 同样一段话,Fable 5 的 tokenizer 会比之前的 Claude 模型多产生约 30% 的 token。这意味着什么?同样的 prompt,换个模型,账单可能差很多。很多人习惯用旧模型的 token 数来估算成本,切换模型家族后才发现预算爆了。正确做法:用目标模型的 token counting API 重新测量,别用旧数字拍脑袋。
⚡ 快讯
- Claude Code v2.1.170:Fable 5 支持、VS Code 终端 transcript 修复、嵌套子 Agent。 链接
- Codex CLI 0.139.0:code 模式支持 web search,MCP 工具 schema 更完整。(152 likes | 10 RTs) 链接
- Fable 5 竞品拒绝争议:有人发现 Fable 5 可能拒绝帮竞争对手构建竞品,引发热议。(314 likes | 141 RTs) 链接
- Bezos 押注类脑 AI:投 5 亿美元给 Flourish,目标是 50 瓦功耗的持续学习系统。(139 likes | 14 RTs) 链接
- KAN 上 FPGA:Kolmogorov-Arnold 网络在 FPGA 上实现超快推理,边缘 ML 的新可能。(139 likes | 15 RTs) 链接
- Agent 链接 HuggingFace Spaces 造 3D 画廊:一个 Agent 自主串联两个 Spaces,建了个巴黎 3D 画廊。模式比结果更有意思。 链接
🎯 今日精选
"第三个时代"不是炒作 — 当 AI 从工具变成协作者,软件架构也要跟着变。 Felix Rieseberg 说的"第三个时代"不是空话。当模型能维持多小时的自主会话、自己验证自己的输出时,开发者和 AI 的关系从"使用工具"变成了"委派给协作者"。这不只是效率提升 — 它改变的是我们架构软件的方式。以前你设计系统是假设人来做决策,AI 来执行;现在你需要设计系统让 AI 能自主决策、自我修正、在出错时回退。多 Agent Mythos 团队 3 倍速写代码、嵌套子 Agent 5 层深度委派 — 这些不是 demo,是新架构范式的早期信号。对开发者来说,现在该认真想想:你的代码库准备好被"委派"了吗? 详情 →
下期见 ✌️