GPT-5.5 首周成绩单：API 营收增速 2 倍，Codex 七天翻番

💡 行业洞察

GPT-5.5 首周成绩单：API 营收增速 2 倍，Codex 七天翻番。

OpenAI 罕见地公开了模型发布的商业数据 — GPT-5.5 的 API 营收增长速度是此前任何模型的两倍以上，而 Codex 在不到一周内收入就翻了一番。Frontier 模型的商业化速度在加快，这意味着模型能力到收入的转化周期正在压缩。对开发者来说，这也说明迁移到最新模型的 ROI 是实打实的。(5,884 likes | 255 RTs) 详情 →

Sam Altman 喊话开发者：Claude Code 好用就用，别纠结。

OpenAI CEO 公开说"用 Codex 还是 Claude Code，哪个好用就用哪个"，还嫌那些"哪个更好"的投票无聊。这种态度在大厂 CEO 里很少见 — 与其说是大度，不如说是自信：当你的模型营收在暴涨时，你不需要贬低竞争对手。开发者的最优策略一直没变：按任务选工具，不要站队。(14,593 likes | 726 RTs) 详情 →

开源模型在批量任务上追平闭源。 Kimi 2.6 和 GLM 5.1 在批量工作负载上的表现已经接近闭源模型。差距在哪？速度。但对于不需要实时响应的批处理场景，企业正在用开源模型替换 API 调用来省钱。如果你的管线里有大量离线推理，现在是重新评估供应商的时候了。(234 likes | 10 RTs) 详情 →

HuggingFace CEO：靠蒸馏训练的实验室们在"抽梯子"。 Clement Delangue 指出，几乎所有主要实验室都在训练中用过模型蒸馏（Model Distillation），现在却想限制别人用 — 这等于自己爬上去之后把梯子抽了。LeCun 转发放大了这场争论。这不只是学术争论：蒸馏政策直接决定了开源模型还能不能继续追赶闭源。(307 likes | 33 RTs) 详情 →

Spotify 推出"Verified"徽章区分人类和 AI 音乐。 这是第一个主流平台在创意内容上做出人类/AI 的明确区分。不管你怎么看 AI 生成音乐，这个先例会传导到其他平台 — 视频、文字、图片领域的"人类认证"可能只是时间问题。(187 likes | 207 RTs) 详情 →

🧠 发布动态

Grok 4.3 来了：Sonnet 级能力，五分之一的价格。

xAI 发布 Grok 4.3，号称在智能水平上对标 Claude Sonnet 4.6，但成本只有后者的五分之一，速度也更快。如果跑分数据经得起验证，这将是中端模型市场的一次显著冲击 — 对于不需要 Opus 级推理的日常任务，价格差距这么大很难忽视。建议在你自己的场景上跑个对比再做判断。(670 likes | 24 RTs) 详情 →

Diffusers 0.38 把离散扩散带到了文本生成。 HuggingFace 的 Diffusers 0.38.0 支持了 LLaDA2 — 一种用分块迭代精炼代替自回归解码的文本生成范式。这不是扩散模型生图的老故事，而是把扩散思路用在了语言模型上。新的生成范式，现在可以在标准库里直接实验了。详情 →

NVIDIA 发布量化版 Kimi-K2.6，消费级显卡可跑。 NVIDIA 的 LLM Compressor 团队发布了 Kimi-K2.6 的 NVFP4 和 FP8 量化检查点。GPU 厂商亲自做量化，意味着他们在认真投入开源模型生态 — 你的 RTX 4090 现在能跑一个接近前沿水平的开源模型了。(198 likes | 21 RTs) 详情 →

🔬 研究前沿

AI 心理治疗首个严格 RCT 出结果：有效，而且效果持续半年。

一项针对墨西哥女性的随机对照试验（RCT）显示，AI 心理治疗聊天机器人在 6 个月内显著改善了心理健康、睡眠、日常功能和就业指标，效应量 0.3 个标准差，且未增加严重病例。这是 AI 心理干预领域最强的因果证据之一 — 不是问卷调查，是真正的临床试验。规模化心理健康服务的可能性又近了一步。(458 likes | 56 RTs) 详情 →

英国安全测试组：GPT-5.5 的网络攻击能力接近 Anthropic Mythos。 英国 AI 安全测试机构发现，GPT-5.5 在一项企业网络攻击模拟中 10 次尝试成功了 2 次，与 Anthropic 尚未发布的 Mythos 模型大致持平。这是首次由政府评估机构对前沿模型的网络安全能力做正面对比。详情 →

Qwen 开源可解释性工具包 Qwen-Scope。 Qwen 发布了 Qwen-Scope，在 Qwen3.5-27B 上提供稀疏自编码器（Sparse Autoencoders）用于可解释性研究。前沿级模型的开源可解释性工具 — 这降低了机械可解释性研究的门槛，不再只有大实验室才能做。(186 likes | 34 RTs) 详情 →

🔧 开发者工具

Claude Code v2.1.126：项目清理和模型选择器。 新版 Claude Code 加了 claude project purge 命令做完整状态清理，网关 /v1/models 集成让模型选择更灵活，还改进了 skip-permissions 行为。日常用户的体验提升。延伸阅读：Claude Code 有什么特别的？详情 →

Paperclip 现在能全文搜索 arXiv 和 PubMed 的全部论文。 覆盖所有 arXiv、PubMed Central 全文加 1.5 亿篇摘要 — 做文献综述不用再东拼西凑多个搜索引擎了。目前最全的开放研究发现工具。(1,426 likes | 203 RTs) 详情 →

AI CLI：在终端里用管道串联图像、视频和文本生成。 Unix 哲学 + AI 生成：一个 CLI 工具让你像 cat | grep 一样把多个 AI 模型的输入输出串起来。数百个模型、多模型对比、内联预览，不需要额外依赖。基于 AI SDK + AI Gateway 构建。(428 likes | 17 RTs) 详情 →

📝 技术实战

一个 CLAUDE.md 配置，一周省了 50% token 用量。 核心思路：在 CLAUDE.md 里设定任务委派规则 — 批量工作用 Haiku，调研用 Sonnet，只有深度推理才用 Opus。有人实测一周下来 token 消耗减半。具体、可验证、今天就能抄。(337 likes | 29 RTs) 详情 →

🏗️ 值得一试

非技术 PM 用 Claude Code 六周做出了一个完整 App。 一个没有编程背景的产品经理，只用 Claude Code 在六周内从零构建并上线了一个压力管理应用。这不是"AI 帮我写了个函数"的故事，而是完整的产品开发 — 从设计到部署。"谁能写软件"这个问题的答案正在被重新定义。详情 →

Gemma 4 本地 Agent 搭建指南：多模态 + MCP 工具发现。 Google 发布了一个实操 notebook，展示 Gemma 4 在本地用 Haystack 框架搭建多模态 Agent — 地图/天气 Agent、通过 GitHub MCP 服务器动态发现工具、可组合的 Agent 模式。Clone 下来就能跑。(208 likes | 19 RTs) 详情 →

🎓 模型小课堂

模型蒸馏（Model Distillation）：今天 HuggingFace CEO 和 LeCun 关于蒸馏的争论，揭示了一个核心矛盾。模型蒸馏就是让一个小模型去"学习"大模型的输出 — 大模型当老师，小模型当学生，学生不需要从头学习所有知识，只需要模仿老师的答题方式。几乎所有主要实验室都用这个技术训练过自己的模型，但现在有些实验室想限制别人用蒸馏 — 理由是保护知识产权，实际效果是阻止开源模型追赶。Kimi 2.6 这样的开源模型能突然变得这么能打，蒸馏功不可没。理解蒸馏，就理解了为什么"开源 vs 闭源"这场仗的关键不在模型大小，而在训练方法论的开放程度。

⚡ 快讯

Code with Claude 开发者大会：下周回归，各级别开发者都有对应 session，赶紧注册。(5,486 likes | 499 RTs) 链接
Anthropic Bedrock SDK v0.29.1：修复了流式传输中错误事件静默失败的 bug — 如果你在 Bedrock 上跑 Claude，立即更新，否则 Agent 循环可能卡死不报错。链接
Mollick：别把 AI 当个人生产力工具想：组织本身就是超人智能，AI 改变的是组织智能的运作方式，不只是个人效率。(368 likes | 45 RTs) 链接
GPT-5.5 要在 5 月 5 日 5:55 PM 给自己办派对：Codex 帮忙筛选参会者 — OpenAI 的营销团队越来越会玩了。(5,733 likes | 358 RTs) 链接

🎯 今日精选

英国政府红队测试揭示：公开跑分不再是前沿模型的真正看门人。 英国 AI 安全测试机构对 GPT-5.5 和 Anthropic Mythos 进行的企业网络攻击模拟，释放了一个重要信号 — 政府红队评估，而非公共 benchmark，正在成为前沿模型能否部署的真正关卡。GPT-5.5 和 Mythos 在网络攻击能力上的趋同更值得关注：当不同实验室的顶级模型在敏感能力上达到相似水平时，"能力遏制"从是否可能变成了何时到来的问题。对行业来说，这意味着监管评估的话语权在上升，未来前沿模型的发布节奏可能越来越多地取决于政府测试组说"可以"，而不是实验室自己说"准备好了"。详情 →

下期见 ✌️