NewsletterBlogLearnCompareTopicsGlossary
English
LAUNCHTOOLTECHNIQUERESEARCHINSIGHTBUILD

22 条资讯

Opus 4.7 来了 — Agent 编码有了真旗舰

🧠 发布动态

Opus 4.7 来了 — Agent 编码有了真旗舰。

Anthropic 的新当家模型,在 Agent 编码、长任务执行和指令遵循上全面超越 Opus 4.6。Cursor 内部跑分从 58% 跳到 70%,Notion 评测提升 14% 且工具调用次数更少 — 不是更会说话,是真的更会干活。对开发者来说,这意味着你的 Claude Code 工作流今天就该升级。(70,230 likes | 9,004 RTs) 详情 →

OpenAI 发了一个只懂生物的模型。

GPT Rosalind 是 OpenAI 第一个垂直领域前沿模型,专攻生物学、药物发现和转化医学。以 Rosalind Franklin 命名不只是致敬 — 这是 OpenAI 押注垂直专精路线的信号。通用模型的天花板在哪,垂直模型就从哪开始。制药和生物科技公司,该看技术报告了。(7,737 likes | 695 RTs) 详情 →

Qwen3.6-35B-A3B:笔记本上跑的开源模型,打赢了旗舰 API。

阿里开源了一个稀疏 MoE 模型 — 总参数 35B,激活参数只有 3B,Apache 2.0 协议。跑在笔记本上,Simon Willison 的鹈鹕测试已经打赢了 Opus 4.7。这不是玩具 — 这是 Agent 编码能力下放到消费级硬件的转折点。用 Ollama 拉 GGUF,自己跑一遍就知道了。(8,766 likes | 1,264 RTs) 详情 →

腾讯开源 HY-World 2.0 — 交互式 3D 世界模型。 能生成、重建、模拟交互式 3D 环境的多模态世界模型,直接开源。游戏开发和仿真研究的同学有新玩具了,世界模型赛道终于有了重量级开源选手。(1,922 likes | 324 RTs) 详情 →

波士顿动力 Spot 装上了 Gemini 大脑。 Google DeepMind 的 Gemini Robotics 让机器狗 Spot 能理解环境、识别物体、听自然语言指令行动。大模型进入物理世界最直观的一次演示 — 两家行业巨头联手,具身智能不再只是论文里的概念。(1,172 likes | 207 RTs) 详情 →

Google 把 AI Mode 塞进了 Chrome。 浏览器从"搜索-点击"变成对话式 Web Agent — 30 亿用户基数,这是目前规模最大的 AI 浏览部署。你的 Chrome 更新一下,研究工作流可能会被重新定义。 详情 →


🔧 开发者工具

Codex 不只是写代码了 — 电脑操控、图片生成、90+ 插件全上。

OpenAI 的 Codex 大扩张:Mac 上的 Computer Use(跨应用点击和输入)、内置浏览器、gpt-image-1.5 图片生成、90+ 新插件(JIRA、CircleCI、GitLab、Microsoft 全家桶)、SSH 远程开发。Sam Altman 说 Computer Use "比预期更有用"。这不是代码助手了,这是全能 Agent 平台。(5,919 likes | 282 RTs) 详情 →

一行命令迁移到 Opus 4.7。 @ClaudeDevs 官方账号上线的第一件事就是实用工具:在 Claude Code 里说"migrate to Opus 4.7",自动更新模型名、提示词和 effort 设置。年度最大模型升级的迁移摩擦,降到了零。(1,402 likes | 65 RTs) 详情 →

延伸阅读:如果你在用 Claude Code,这份 快捷键指南 能帮你进一步提效。

Cloudflare Sandbox SDK — 给 AI Agent 一个安全沙箱。 直接集成 OpenAI Agents SDK,让 Agent 在隔离环境里跑代码。基础设施终于跟上了 Agent 的节奏 — 生产级沙箱现在是一个 SDK 调用的事。(295 likes | 41 RTs) 详情 →


📝 技术实战

Boris Cherny 的 Opus 4.7 实战笔记。 Claude Code 创始人(388K 粉丝)分享了上手 Opus 4.7 的关键心得:花了好几天才摸清怎么充分利用新的 Agent 能力 — 提示词模式跟 4.6 不一样。核心观点:更智能、更 Agent、更精确,但你得重新学怎么跟它说话。(3,753 likes | 318 RTs) 详情 →

HuggingFace 模型移植到 Apple MLX 的缺失桥梁。 Apple Silicon 统治了本地推理硬件,但 HuggingFace 生态到 Mac 原生性能之间一直缺条路。这篇官方指南补上了 — 把你最爱的 Transformers 模型搬到 MLX 上跑,性能直接起飞。 详情 →


🔬 研究前沿

英国 AI 安全研究所确认:Claude Mythos 首个通过 AISI 网络安全基准。 不是 Anthropic 自己说的 — 这是独立第三方评测的结果。AISI 的网络安全评估中,Mythos 成为第一个完成基准任务的模型,验证了 Anthropic 上周向网络安全防御者展示的能力是实打实的。(2,961 likes | 538 RTs) 详情 →

Redis 创始人 antirez 反驳"网络安全即工作量证明"论点。 Simon Willison 提出 AI 根本性改变了攻防不对称,antirez 用技术论据正面回击。一场关于 AI 是否真正重塑网络安全格局的高质量辩论,两边都值得读。(193 likes | 78 RTs) 详情 →

Simon Willison 的鹈鹕测试:21GB 本地模型画得比 Opus 4.7 好。 这个病毒式传播的测试不只是梗图 — 它是一个具体数据点:开源 MoE 模型在消费级硬件上正在逼近前沿 API 的质量。Qwen3.6 的 GGUF 版本跑在笔记本上,画出来的鹈鹕比 Opus 4.7 更好。前沿 API 的护城河,正在从下面被侵蚀。(269 likes | 61 RTs) 详情 →


💡 行业洞察

Mollick 指出 Opus 4.7 的自适应思考是个 UX 问题。 Ethan Mollick 发现 Opus 4.7 的自动 effort 路由经常把非数学/代码查询降级为"低 effort",导致回答质量下降 — 而且不像 ChatGPT,没有手动覆盖选项。发布首日就暴露的显著摩擦点,Anthropic 需要修。(632 likes | 28 RTs) 详情 →

Latent Space 宣布 Pull Request 已死。 AI 编码工具从"帮我审 diff"变成"帮我跑整个任务",软件协作中最古老的仪式正在被 Agent 工作流重塑。挑衅但论据扎实 — 你团队的 code review 流程该怎么进化? 详情 →


🏗️ 值得一试

CodeBurn — 看清你的 Claude Code token 花在哪了。 Opus 4.7 的 100 万 token 上下文加上自适应思考,token 消耗变得更难预测。CodeBurn 让你可视化每个任务的 token 去向 — Agent 工作流规模化之后,成本管理不能靠猜。(69 likes | 14 RTs) 详情 →


🎓 模型小课堂

混合专家模型(Mixture of Experts, MoE)— 稀疏激活:今天 Qwen3.6 的"35B 总参数 / 3B 激活参数"看起来很矛盾 — 模型这么大,为什么能跑在笔记本上?秘密就在 MoE 架构。想象一个公司有 100 个专家,但每个问题只派 8 个人去处理。MoE 把模型分成很多"专家"子网络,每个 token 只激活其中一小部分,大幅降低计算量的同时保留了完整的知识容量。这就是为什么"模型大小"这个概念已经过时了 — 重要的不是总参数多少,而是每次推理实际用了多少。


⚡ 快讯

  • Gemini Nano Banana 2:用你的照片生成个性化图片,本地运行不上云。 链接
  • Google Android CLI:一行命令让任意 AI Agent 构建 Android 应用,号称 3 倍提速。(91 likes | 24 RTs) 链接
  • NVIDIA Lyra 2.0:NVIDIA 新开源模型登陆 HuggingFace,社区关注度飙升。(122 likes) 链接
  • NucleusAI Nucleus-Image:又一个开源文生图模型入场,DALL-E 和 Midjourney 之外的选择越来越多。(134 likes | 464 downloads) 链接
  • Gas Town 被指偷用用户 API 额度:GitHub issue 引爆信任危机 — 热门开发工具被指控偷偷用用户的 API credit 训练自己的模型。AI 工具链的信任问题该重视了。(193 likes | 92 RTs) 链接

🎯 今日精选

一个笔记本模型打赢旗舰 API — 前沿模型的护城河正在从下面被侵蚀:Qwen3.6-35B-A3B 用 3B 激活参数跑在 MacBook 上,在 Simon Willison 的鹈鹕测试中击败了刚发布的 Opus 4.7。这不是跑分趣闻 — 这是最清晰的信号:前沿 API 的护城河正在被开源从下方瓦解。当一个消费级硬件能跑的模型开始匹配顶级付费 API 的输出质量,定价逻辑、部署策略和控制权分配都会被重写。对创业者来说,"必须用最贵的 API"这个假设不再成立了;对大厂来说,模型本身越来越不是壁垒,编排和生态才是。MoE 架构的稀疏激活让"模型大小"失去了意义 — 未来谁能真正发布 AI 产品,这个问题的答案刚刚被彻底改写。 详情 →


下期见 ✌️