GPT-5.5 来了：OpenAI 定义的"新智能等级"

🧠 发布动态

GPT-5.5 来了：OpenAI 定义的"新智能等级"。

你的 AI 工具箱刚升了一个大档。GPT-5.5 不是 5.4 的小改款 —— OpenAI 给它定义为全新的智能类别，专为 Agent 编码、计算机操作和科学研究打造。ChatGPT 和 Codex 已经可以直接用。35,550 个点赞说明开发者社区有多兴奋，但真正值得关注的是 OpenAI 把"能自己干活"作为核心卖点 —— 不再是聊天机器人，是你的 Agent 同事。(35,550 likes | 4,923 RTs) 详情 →

Claude 接入 Tripadvisor、Spotify、Instacart 等十几个生活服务。

Claude 不再只是工作工具。新上线的 connectors 让它能帮你订餐厅（Resy）、规划旅行（Tripadvisor、Booking.com）、买菜（Instacart）、听歌（Spotify）、报税（TurboTax）。Anthropic 的策略越来越清晰：不和 OpenAI 拼跑分，而是让 Claude 渗透进你生活的每一个角落。当 AI 助手能帮你订晚餐和规划周末的时候，用户粘性就不是跑分能衡量的了。(8,222 likes | 475 RTs) 详情 →

Claude Managed Agents 获得持久记忆（公测）。 Agent 终于能记住上次聊了什么。Claude Managed Agents 新增智能记忆层，每次会话的关键信息自动沉淀，下次交互直接复用。SDK 已同步更新。对开发者来说，这意味着你的 Agent 不再是"每次失忆的实习生"，而是能积累经验的同事。(3,746 likes | 250 RTs) 详情 →

Gemini Embedding 2 正式 GA。 Google 的首个原生多模态嵌入模型上线 —— 文本、图像、视频用同一个嵌入空间检索。如果你在做 RAG 或多模态搜索，这是一个值得认真评估的升级。单一嵌入空间意味着跨模态检索不再需要拼凑多个模型。(2,782 likes | 297 RTs) 详情 →

OpenAI 发布免费临床版 ChatGPT。 专为临床医生设计的 ChatGPT-5.4 免费版，在高难度临床任务上击败了对口专科医生。OpenAI 的第一个垂直行业产品 —— 从通用平台到领域专精，这个转向值得所有做垂直 AI 的团队关注。(637 likes | 57 RTs) 详情 →

🔧 开发者工具

Codex 获得浏览器能力：从代码编写器变全栈 Agent。

Codex 现在能浏览网页、测试交互流程、点击页面、截图、然后根据看到的内容迭代修改。由 GPT-5.5 驱动的浏览器能力让 Codex 从"帮你写代码"升级到"帮你测整个 Web 应用"。前端开发者的工作流要变了。(2,944 likes | 239 RTs) 详情 →

Claude Code v2.1.119：持久化配置、Agent worktrees、vim 可视模式。 两个版本快速迭代 —— v2.1.118 加了 vim 可视模式和自定义主题，v2.1.119 加了持久化配置和 Agent worktrees。质量事后分析后的快速修复节奏，Anthropic 在用行动回应社区反馈。（延伸阅读：Claude Code 模型选项详解）详情 →

Anthropic SDK 同日支持 Managed Agent Memory。 Python（v0.97.0）和 TypeScript（v0.91.0）SDK 当天就发布了 Claude Managed Agents Memory 的 API 支持。Anthropic 的发布节奏值得学习 —— 功能和 SDK 同步到位，开发者不用等。详情 →

🔬 研究前沿

DeepMind 的 Decoupled DiLoCo：跨数据中心训练不怕断网。 当模型大到一个数据中心装不下时怎么办？DeepMind 的新方法让模型可以在多个数据中心用本地 SGD 分布式训练，对网络故障和延迟有很强的容错能力。这不是学术体操 —— 这决定了谁能训出下一代 frontier 模型。(956 likes | 129 RTs) 详情 →

Vision Banana：图像生成器其实是通用视觉模型。 DeepMind 发现图像生成模型可以直接当通用视觉理解模型用 —— 生成和理解的界限可能根本不存在。如果这个发现被广泛验证，视觉 AI 的架构思路要重新想了。(559 likes | 82 RTs) 详情 →

Sony 的乒乓球机器人登上 Nature。 Sony 用强化学习训练的乒乓球机器人 Ace 达到了专家级水平，靠视觉传感器在毫秒级做出反应。发表在 Nature 上。物理 AI 的一个标志性成果 —— 在真实世界的高速对抗中，AI 已经能和人类专家过招了。(510 likes | 62 RTs) 详情 →

LLaDA 2.0-Uni：基于扩散的语言模型走向多模态。 一个完全不同于 Transformer 自回归范式的架构 —— LLaDA 2.0-Uni 用扩散模型处理文本和图像。在 HuggingFace 上热度不低（140 likes）。Transformer 不是唯一的路，这类探索值得关注。(140 likes) 详情 →

💡 行业洞察

Anthropic 公开 Claude Code 质量回退的事后分析。

这份报告比 Claude Code 本身更值得读。Anthropic 坦承基础设施配置差异导致了跑分波动 —— 波动幅度甚至大于顶级模型之间的跑分差距。换句话说：如果你根据 2% 的跑分差异选模型，你可能只是在测服务器负载。所有受影响用户的速率限制已重置。透明度这件事，Anthropic 在行业里做得最好。(2,181 likes | 85 RTs) 详情 →

Simon Willison："两年内你就能 prompt inject 一整个国家。" 当 AI Agent 获得越来越多的真实世界权限和工具访问时，prompt injection 的攻击面在指数级扩大。这不是危言耸听 —— 想想今天 Claude 刚接入了十几个生活服务，每一个都是潜在的注入入口。做 Agent 安全的团队，这条值得反复读。(1,197 likes | 121 RTs) 详情 →

Abacus AI 把生产负载迁移到开源模型 Kimi 2.6。 这是第一个公开报告将真实生产流量从闭源模型迁移到开源模型的案例。如果 Kimi 2.6 在生产环境扛住了，开源模型的成本优势论就从理论变成了事实。国内开发者对 Kimi 应该不陌生 —— 月之暗面的模型被美国公司用到生产环境，这本身就是一个信号。(363 likes | 25 RTs) 详情 →

Redis 之父 Antirez：GPT-5.4 是系统编程最强 LLM。 Antirez 分享实战经验：GPT-5.4 一直是他做系统编程的最有效工具，现在第一时间测试 5.5。来自 Redis 作者的模型选型建议，比任何跑分排行榜都有参考价值。(306 likes) 详情 →

📝 技术实战

Gemini 3.1 TTS：用标签控制语音风格。 Google 最新的 TTS 模型引入了内联音频标签 —— [whispers]、[screams] 等标记可以精细控制语音的风格、节奏和情感。这是一个实用的新 prompting 模式：不再需要复杂的音频后处理，直接在文本里标注就行。做语音产品的，去试试。(319 likes | 39 RTs) 详情 →

🏗️ 值得一试

Agent Vault：开源的 AI Agent 凭证管理。 当 Agent 能调用越来越多的工具时，凭证管理成了刚需。Infisical 开源的 Agent Vault 提供了专门的安全层，处理 Agent 的认证和密钥管理。Agent 基础设施栈里一直缺这一块，现在有了。(53 likes | 14 RTs) 详情 →

1,000+ Claude Code 扩展集中在一个社区注册表。 现成的 Agent、技能、命令、MCP 和 Hooks，一条命令安装。社区生态的增长速度比官方 marketplace 快得多。（延伸阅读：Claude Code 子智能体实战案例）(297 likes | 33 RTs) 详情 →

🎓 模型小课堂

解耦分布式训练（DiLoCo）：训练一个 frontier 模型需要的算力已经超过了单个数据中心的承载能力。怎么办？DeepMind 的 DiLoCo 方法让模型可以在多个数据中心同时训练 —— 每个节点先在本地跑若干步 SGD，然后只同步关键的梯度更新。妙处在于：即使某个数据中心断网或故障，训练也不会崩。传统分布式训练要求节点之间时刻保持高速通信，DiLoCo 把这个要求降低了几个数量级。当 frontier 模型的规模继续膨胀，谁掌握了跨数据中心的高效训练，谁就能训出下一代最强模型。

⚡ 快讯

GPT-5.5 发布推文破 35K 点赞：OpenAI 官方公告帖成为近期 AI 领域互动量最高的推文之一。链接
Claude Code v2.1.117 后不再疯狂调用 Grep/Glob：社区反馈数月后，Agent 的文件搜索策略终于优化了，体感速度明显提升。(1,383 likes) 链接
llama.cpp 修复 CVSS 8.8 级堆缓冲区溢出漏洞：客户端 JSON 的负数 n_discard 导致 context-shift 溢出，跑 llama.cpp 服务的立即更新到 b8908。链接
Anthropic Cat Wu 谈 Claude Code 如何保持产品速度：Lenny's Podcast 访谈，聊 AI 时代 PM 角色的转变和 Claude Code 团队的迭代节奏。(124 likes) 链接

🎯 今日精选

当基础设施噪声比模型差距还大，跑分排行榜在测什么？ Anthropic 这份事后分析报告揭示了一个让整个 AI 评测行业尴尬的事实：服务器配置差异造成的跑分波动，有时候比顶级模型之间的实际差距还大。这意味着什么？意味着那些基于 2-3 个百分点差异排出的"最强模型排行榜"，可能只是在测量基础设施的配置漂移，而不是智能水平。在一个所有人都盯着 SWE-Bench 和 HumanEval 选模型的行业里，这个发现应该让每个人停下来想想：我们的评测方法论本身就有系统性偏差。Anthropic 的建议很实在 —— 在你自己的环境、你自己的任务上跑 eval，别只看排行榜。透明地公开自己的问题，这在 AI 公司里太少见了。详情 →

下期见 ✌️