Opus 4.7 来了 — Agent 编码有了真旗舰

🧠 发布动态

Opus 4.7 来了 — Agent 编码有了真旗舰。

Anthropic 的新当家模型，在 Agent 编码、长任务执行和指令遵循上全面超越 Opus 4.6。Cursor 内部跑分从 58% 跳到 70%，Notion 评测提升 14% 且工具调用次数更少 — 不是更会说话，是真的更会干活。对开发者来说，这意味着你的 Claude Code 工作流今天就该升级。(70,230 likes | 9,004 RTs) 详情 →

OpenAI 发了一个只懂生物的模型。

GPT Rosalind 是 OpenAI 第一个垂直领域前沿模型，专攻生物学、药物发现和转化医学。以 Rosalind Franklin 命名不只是致敬 — 这是 OpenAI 押注垂直专精路线的信号。通用模型的天花板在哪，垂直模型就从哪开始。制药和生物科技公司，该看技术报告了。(7,737 likes | 695 RTs) 详情 →

Qwen3.6-35B-A3B：笔记本上跑的开源模型，打赢了旗舰 API。

阿里开源了一个稀疏 MoE 模型 — 总参数 35B，激活参数只有 3B，Apache 2.0 协议。跑在笔记本上，Simon Willison 的鹈鹕测试已经打赢了 Opus 4.7。这不是玩具 — 这是 Agent 编码能力下放到消费级硬件的转折点。用 Ollama 拉 GGUF，自己跑一遍就知道了。(8,766 likes | 1,264 RTs) 详情 →

腾讯开源 HY-World 2.0 — 交互式 3D 世界模型。 能生成、重建、模拟交互式 3D 环境的多模态世界模型，直接开源。游戏开发和仿真研究的同学有新玩具了，世界模型赛道终于有了重量级开源选手。(1,922 likes | 324 RTs) 详情 →

波士顿动力 Spot 装上了 Gemini 大脑。 Google DeepMind 的 Gemini Robotics 让机器狗 Spot 能理解环境、识别物体、听自然语言指令行动。大模型进入物理世界最直观的一次演示 — 两家行业巨头联手，具身智能不再只是论文里的概念。(1,172 likes | 207 RTs) 详情 →

Google 把 AI Mode 塞进了 Chrome。 浏览器从"搜索-点击"变成对话式 Web Agent — 30 亿用户基数，这是目前规模最大的 AI 浏览部署。你的 Chrome 更新一下，研究工作流可能会被重新定义。详情 →

🔧 开发者工具

Codex 不只是写代码了 — 电脑操控、图片生成、90+ 插件全上。

OpenAI 的 Codex 大扩张：Mac 上的 Computer Use（跨应用点击和输入）、内置浏览器、gpt-image-1.5 图片生成、90+ 新插件（JIRA、CircleCI、GitLab、Microsoft 全家桶）、SSH 远程开发。Sam Altman 说 Computer Use "比预期更有用"。这不是代码助手了，这是全能 Agent 平台。(5,919 likes | 282 RTs) 详情 →

一行命令迁移到 Opus 4.7。 @ClaudeDevs 官方账号上线的第一件事就是实用工具：在 Claude Code 里说"migrate to Opus 4.7"，自动更新模型名、提示词和 effort 设置。年度最大模型升级的迁移摩擦，降到了零。(1,402 likes | 65 RTs) 详情 →

延伸阅读：如果你在用 Claude Code，这份快捷键指南能帮你进一步提效。

Cloudflare Sandbox SDK — 给 AI Agent 一个安全沙箱。 直接集成 OpenAI Agents SDK，让 Agent 在隔离环境里跑代码。基础设施终于跟上了 Agent 的节奏 — 生产级沙箱现在是一个 SDK 调用的事。(295 likes | 41 RTs) 详情 →

📝 技术实战

Boris Cherny 的 Opus 4.7 实战笔记。 Claude Code 创始人（388K 粉丝）分享了上手 Opus 4.7 的关键心得：花了好几天才摸清怎么充分利用新的 Agent 能力 — 提示词模式跟 4.6 不一样。核心观点：更智能、更 Agent、更精确，但你得重新学怎么跟它说话。(3,753 likes | 318 RTs) 详情 →

HuggingFace 模型移植到 Apple MLX 的缺失桥梁。 Apple Silicon 统治了本地推理硬件，但 HuggingFace 生态到 Mac 原生性能之间一直缺条路。这篇官方指南补上了 — 把你最爱的 Transformers 模型搬到 MLX 上跑，性能直接起飞。详情 →

🔬 研究前沿

英国 AI 安全研究所确认：Claude Mythos 首个通过 AISI 网络安全基准。 不是 Anthropic 自己说的 — 这是独立第三方评测的结果。AISI 的网络安全评估中，Mythos 成为第一个完成基准任务的模型，验证了 Anthropic 上周向网络安全防御者展示的能力是实打实的。(2,961 likes | 538 RTs) 详情 →

Redis 创始人 antirez 反驳"网络安全即工作量证明"论点。 Simon Willison 提出 AI 根本性改变了攻防不对称，antirez 用技术论据正面回击。一场关于 AI 是否真正重塑网络安全格局的高质量辩论，两边都值得读。(193 likes | 78 RTs) 详情 →

Simon Willison 的鹈鹕测试：21GB 本地模型画得比 Opus 4.7 好。 这个病毒式传播的测试不只是梗图 — 它是一个具体数据点：开源 MoE 模型在消费级硬件上正在逼近前沿 API 的质量。Qwen3.6 的 GGUF 版本跑在笔记本上，画出来的鹈鹕比 Opus 4.7 更好。前沿 API 的护城河，正在从下面被侵蚀。(269 likes | 61 RTs) 详情 →

💡 行业洞察

Mollick 指出 Opus 4.7 的自适应思考是个 UX 问题。 Ethan Mollick 发现 Opus 4.7 的自动 effort 路由经常把非数学/代码查询降级为"低 effort"，导致回答质量下降 — 而且不像 ChatGPT，没有手动覆盖选项。发布首日就暴露的显著摩擦点，Anthropic 需要修。(632 likes | 28 RTs) 详情 →

Latent Space 宣布 Pull Request 已死。 AI 编码工具从"帮我审 diff"变成"帮我跑整个任务"，软件协作中最古老的仪式正在被 Agent 工作流重塑。挑衅但论据扎实 — 你团队的 code review 流程该怎么进化？详情 →

🏗️ 值得一试

CodeBurn — 看清你的 Claude Code token 花在哪了。 Opus 4.7 的 100 万 token 上下文加上自适应思考，token 消耗变得更难预测。CodeBurn 让你可视化每个任务的 token 去向 — Agent 工作流规模化之后，成本管理不能靠猜。(69 likes | 14 RTs) 详情 →

🎓 模型小课堂

混合专家模型（Mixture of Experts, MoE）— 稀疏激活：今天 Qwen3.6 的"35B 总参数 / 3B 激活参数"看起来很矛盾 — 模型这么大，为什么能跑在笔记本上？秘密就在 MoE 架构。想象一个公司有 100 个专家，但每个问题只派 8 个人去处理。MoE 把模型分成很多"专家"子网络，每个 token 只激活其中一小部分，大幅降低计算量的同时保留了完整的知识容量。这就是为什么"模型大小"这个概念已经过时了 — 重要的不是总参数多少，而是每次推理实际用了多少。

⚡ 快讯

Gemini Nano Banana 2：用你的照片生成个性化图片，本地运行不上云。链接
Google Android CLI：一行命令让任意 AI Agent 构建 Android 应用，号称 3 倍提速。(91 likes | 24 RTs) 链接
NVIDIA Lyra 2.0：NVIDIA 新开源模型登陆 HuggingFace，社区关注度飙升。(122 likes) 链接
NucleusAI Nucleus-Image：又一个开源文生图模型入场，DALL-E 和 Midjourney 之外的选择越来越多。(134 likes | 464 downloads) 链接
Gas Town 被指偷用用户 API 额度：GitHub issue 引爆信任危机 — 热门开发工具被指控偷偷用用户的 API credit 训练自己的模型。AI 工具链的信任问题该重视了。(193 likes | 92 RTs) 链接

🎯 今日精选

一个笔记本模型打赢旗舰 API — 前沿模型的护城河正在从下面被侵蚀：Qwen3.6-35B-A3B 用 3B 激活参数跑在 MacBook 上，在 Simon Willison 的鹈鹕测试中击败了刚发布的 Opus 4.7。这不是跑分趣闻 — 这是最清晰的信号：前沿 API 的护城河正在被开源从下方瓦解。当一个消费级硬件能跑的模型开始匹配顶级付费 API 的输出质量，定价逻辑、部署策略和控制权分配都会被重写。对创业者来说，"必须用最贵的 API"这个假设不再成立了；对大厂来说，模型本身越来越不是壁垒，编排和生态才是。MoE 架构的稀疏激活让"模型大小"失去了意义 — 未来谁能真正发布 AI 产品，这个问题的答案刚刚被彻底改写。详情 →

下期见 ✌️