Sakana AI 发布 Marlin — 前 Google Brain 团队的第一款商业产品

🧠 发布动态

Sakana AI 发布 Marlin — 前 Google Brain 团队的第一款商业产品。

自主研究 Agent 终于有人认真做了。Sakana AI 基于去年 NeurIPS 亮相的 AB-MCTS 架构，推出 Marlin — 定位"虚拟首席科学家"，能自主完成从文献检索到假设验证的完整研究流程。这直接对标 Gemini Deep Research 和 Perplexity Pro，但走的是更重的自主推理路线。值得关注的是定价策略 — 如果能在深度上超过 Gemini，愿意付费的研究者不会少。(240 likes | 39 RTs) 详情 →

Claude Code 黑客松获奖项目揭晓 — 生态往哪走，看这里就够了。

Anthropic 公布了 Built with Opus 4.7 黑客松的获奖名单。获奖项目是风向标 — 它们代表的不是"能做什么"，而是"什么已经能用了"。如果你在找 Claude Code 的落地灵感，从这些项目开始比看文档高效十倍。重点关注那些把 Agent 能力用在非代码场景的获奖者 — 那才是下一波。详情 →

智谱 GLM 5.2 发布，号称对标 Opus 4.7。 发布节奏越来越快了 — 智谱 AI 宣布即发即用，直接开放。中国开源模型军团又添一员，和 DeepSeek、Qwen 形成三足鼎立。跑分自称 Opus 4.7 级别，等独立评测验证，但国产模型追赶 frontier 的速度已经不容忽视。(297 likes | 7 RTs) 详情 →

微软发布 FastContext — 4B 小模型专注速度。 Microsoft 放出 FastContext-1.0-4B-SFT，一个 40 亿参数的文本生成模型，主打低延迟。在和 OpenAI 深度绑定的同时，微软也在悄悄布局小模型赛道 — 和 Phi、Gemma 同量级，适合端侧和成本敏感场景。(100 likes | 13 downloads) 详情 →

🔧 开发者工具

OpenAI 发布官方 Codex 插件 — 把 Codex 当平台来做了。 不只是代码补全 — OpenAI 的第一方插件能自动配置 API key、内联调出相关文档、实时调试集成问题。这是 OpenAI 把 Codex 从"编码助手"升级为"开发者平台"的信号。如果你同时用 Codex 和 Claude Code，这是值得装的。(602 likes | 37 RTs) 详情 →

Claude Code v2.1.178：权限规则精细化，Monorepo 终于好用了。 新增 Tool(param:value) 语法，能精确控制哪些工具调用自动放行 — 比如允许 Sonnet 子 Agent 但拦截 Opus。嵌套 .claude/ 目录现在能按上下文加载 Skill，Monorepo 工作流质的飞跃。(延伸阅读：Claude Code vs Codex 深度对比) 详情 →

Codex CLI 0.140.0：用量追踪 + 一键从 Claude Code 迁移。 OpenAI 加了 token 用量仪表盘、会话永久删除（带确认），以及一键导入 Claude Code 配置。最后这个功能很微妙 — OpenAI 在让"从 Claude Code 切过来"变得零成本。(240 likes | 18 RTs) 详情 →

tmux-claude-session-manager：多仓库 Claude Code 会话管理。 来自 craftzdog 的 tmux 插件 — 一个弹窗看所有 Claude Code 会话状态，哪些跑完了、哪些还在转，一键跳转。跑并行 Agent 任务的开发者，这是刚需。(102 likes | 3 RTs) 详情 →

📝 技术实战

swyx：Ultracode 确实吓人 — 但你的仓库结构得先跟上。

第一篇认真分析 Claude Code Ultracode 多 Agent 编排的实战文章。swyx 把子 Agent 比作"智能子程序"，核心观点：Ultracode 的真正解锁条件不是打开开关，而是你的代码仓库能支撑并行 fan-out。模块化不够好的项目，开了 Ultracode 反而浪费 token。想用好这个功能，先重构你的项目结构。(350 likes | 19 RTs) 详情 →

MCP vs CLI：别纠结了，都用。 终于有人把这个问题说清楚了 — CLI 用于模型已经"会"的工具（git、npm、docker — 训练数据里有 man page，上下文成本低），MCP 用于外部集成（Slack、Notion、Linear）。这个框架帮你秒判每个工具该走哪条路。(307 likes | 16 RTs) 详情 →

别装 Figma MCP Server 了 — 直接给 Agent 浏览器权限。 一个开发者演示：给编码 Agent 浏览器访问权限，指向 Figma 的 window.figma 插件 API，就能完成完整的设计自动化。一行指令替代整个 MCP Server — 整个设计到代码的工作流藏在这个技巧里。(88 likes) 详情 →

🔬 研究前沿

DeepMind 发现：AI 模型会从前代输出中"遗传"怪癖。 Google DeepMind 研究员证明，用上一代模型输出训练的新模型会继承难以过滤的行为特征。这解释了为什么同一系列的模型"感觉"相似 — 也给合成数据（Synthetic Data）管线敲了警钟：数据多样性不是可选项，是必需品。(333 likes | 21 RTs) 详情 →

"幻影量化"效应：你觉得模型变差了，但跑分说没有。 一个引人深思的发现 — 用户几乎总是感觉新模型"用着用着就变差了"，但客观指标完全平稳。这可能是 AI 领域的一个新心理学效应。最扎心的启示：如果你根据"感觉"评估模型发布，你的判断可能系统性地偏了。(251 likes | 6 RTs) 详情 →

💡 行业洞察

"他们坑了我们" — Axios 曝光 Anthropic 内部人格冲突导致模型下线。

Simon Willison 转发了 Axios 的报道：Anthropic 内部的"人格冲突"（personality clashes）是 Fable 和 Mythos 下线的部分原因。如果属实，这意味着 Fable 的暂停不完全是安全决策，而是掺杂了组织管理问题。这件事的叙事正在从"负责任的 AI 安全"转向"内部混乱"。(Axios 原文值得通读) 详情 →

Anthropic 在 Fable 发布前一天悄悄更新了隐私政策。 还是 Willison 挖出来的 — 6 月 8 日更新的隐私政策加入了"验证数据"（verification data）收集条款，6 月 9 日 Fable 上线，6 月 12 日美国政府介入。这个时间线至少说明 Anthropic 对后续事态有所预判。(207 likes | 10 RTs) 详情 →

HN 热帖：本地模型真能替代 Claude 日常写代码吗？ 600+ 赞的 Hacker News 讨论，开发者分享用本地模型替代云端 AI 的真实体验。共识是：自动补全和小任务可以，多文件复杂推理还差得远。Fable 下线后这类讨论明显增多 — 社区在认真评估"不依赖云端"的可行性。(603 likes | 309 RTs) 详情 →

Mollick：AI 已经准备好做登月级项目了 — 但需要公共研发，不只是创业公司。 Ethan Mollick 点名三个方向：通用 AI 家教、科研复现系统、远程医疗 AI。他的论点是这些项目在技术上已经可行，但需要公共部门的投入、共识和透明度 — 光靠创业公司冲不动。对中国读者来说，这三个方向和国内的教育公平、医疗资源下沉高度相关。(394 likes | 23 RTs) 详情 →

🏗️ 值得一试

从零训练一个 GPT — 不用任何高层库。 注意力机制、多头注意力（Multi-Head Attention）、前馈网络、嵌入层、LayerNorm — 全部手写，从数据下载到文本生成。对想真正理解 Transformer 底层的工程师来说，这是目前最好的动手教程之一。(354 likes | 49 RTs) 详情 →

fusion-fable：用 Opus 4.8 + GPT-5.5 拼出接近 Fable 的效果。 Fable 下线了，社区自己造。这个项目用 Opus 4.8 起草、GPT-5.5 校验，融合结果逼近 Fable 水平。跨厂商模型套利的思路很有意思 — 与其等某个模型回来，不如自己组合。(225 likes | 31 RTs) 详情 →

Qwen 3.6 40B GGUF：376K 次下载，本地模型需求爆了。 DavidAU 的社区量化版本拿下 336 赞和 37.6 万次下载，是当前最火的社区模型之一。"无审查思维链"的卖点反映了 Fable 暂停后，对不受限本地模型的需求急剧上升。(336 likes | 376.0K downloads) 详情 →

🎓 模型小课堂

模型坍缩（Model Collapse）：想象你复印一份文件，然后用复印件再复印，反复几十次 — 最终文字会模糊到看不清。AI 模型也有类似问题。当新模型用上一代模型生成的数据来训练时，一些细微的行为怪癖会被逐代放大 — 这就是模型坍缩。今天 DeepMind 的研究正好证明了这一点：同一家族的模型"感觉"相似，并不是巧合，而是遗传。这也是为什么合成数据管线必须引入多样性保障 — 否则你训出来的模型只会越来越像它的前辈，包括前辈的缺点。

⚡ 快讯

Anthropic Python SDK v0.109.2：清理已退役模型 ID，硬编码旧模型字符串的代码会报错。链接
Anthropic TypeScript SDK v0.104.2：同步清理，两个 SDK 同天发版，Anthropic 在统一废弃旧端点。链接
Gemma 4 12B Coder 社区微调：带"Fable 风格"写作能力的编码模型，社区在抢跑蒸馏。(161 likes | 6.2K downloads) 链接
Fata：用间隔重复对抗 AI 编码带来的技能退化 — 你用 AI 写得越多，自己忘得越快。(73 likes | 43 RTs) 链接
谷歌 15 亿美元扩建阿拉巴马数据中心：2026-2027 年完工，AI 基础设施军备竞赛继续加码。链接

🎯 今日精选

"幻影量化"效应 — 你对模型的"直觉"正在系统性地骗你：每次有新模型发布，社区里总有人说"用了几天感觉变差了"。但跑分数据一次又一次显示：模型质量没变。这不是个别现象 — 这是一个可复现的心理效应。更麻烦的是，当 frontier 模型之间的客观差距越来越小时，这种"感觉"偏差的影响反而越来越大。你基于直觉选模型、基于直觉评价新版本、基于直觉决定要不要迁移 — 而这些直觉可能从一开始就是错的。这对整个行业的影响是深远的：我们评估每一次新发布的方式，可能都需要重新审视。下次想发"XX 模型变笨了"之前，先跑个 eval。详情 →

下期见 ✌️