NewsletterBlogLearnCompareTopicsGlossary
English
INSIGHTBUILDTOOLLAUNCHRESEARCHTECHNIQUE

21 条资讯

GPT-5.5 首周成绩单:API 营收增速 2 倍,Codex 七天翻番

💡 行业洞察

GPT-5.5 首周成绩单:API 营收增速 2 倍,Codex 七天翻番。

OpenAI 罕见地公开了模型发布的商业数据 — GPT-5.5 的 API 营收增长速度是此前任何模型的两倍以上,而 Codex 在不到一周内收入就翻了一番。Frontier 模型的商业化速度在加快,这意味着模型能力到收入的转化周期正在压缩。对开发者来说,这也说明迁移到最新模型的 ROI 是实打实的。(5,884 likes | 255 RTs) 详情 →

Sam Altman 喊话开发者:Claude Code 好用就用,别纠结。

OpenAI CEO 公开说"用 Codex 还是 Claude Code,哪个好用就用哪个",还嫌那些"哪个更好"的投票无聊。这种态度在大厂 CEO 里很少见 — 与其说是大度,不如说是自信:当你的模型营收在暴涨时,你不需要贬低竞争对手。开发者的最优策略一直没变:按任务选工具,不要站队。(14,593 likes | 726 RTs) 详情 →

开源模型在批量任务上追平闭源。 Kimi 2.6GLM 5.1 在批量工作负载上的表现已经接近闭源模型。差距在哪?速度。但对于不需要实时响应的批处理场景,企业正在用开源模型替换 API 调用来省钱。如果你的管线里有大量离线推理,现在是重新评估供应商的时候了。(234 likes | 10 RTs) 详情 →

HuggingFace CEO:靠蒸馏训练的实验室们在"抽梯子"。 Clement Delangue 指出,几乎所有主要实验室都在训练中用过模型蒸馏(Model Distillation),现在却想限制别人用 — 这等于自己爬上去之后把梯子抽了。LeCun 转发放大了这场争论。这不只是学术争论:蒸馏政策直接决定了开源模型还能不能继续追赶闭源。(307 likes | 33 RTs) 详情 →

Spotify 推出"Verified"徽章区分人类和 AI 音乐。 这是第一个主流平台在创意内容上做出人类/AI 的明确区分。不管你怎么看 AI 生成音乐,这个先例会传导到其他平台 — 视频、文字、图片领域的"人类认证"可能只是时间问题。(187 likes | 207 RTs) 详情 →


🧠 发布动态

Grok 4.3 来了:Sonnet 级能力,五分之一的价格。

xAI 发布 Grok 4.3,号称在智能水平上对标 Claude Sonnet 4.6,但成本只有后者的五分之一,速度也更快。如果跑分数据经得起验证,这将是中端模型市场的一次显著冲击 — 对于不需要 Opus 级推理的日常任务,价格差距这么大很难忽视。建议在你自己的场景上跑个对比再做判断。(670 likes | 24 RTs) 详情 →

Diffusers 0.38 把离散扩散带到了文本生成。 HuggingFace 的 Diffusers 0.38.0 支持了 LLaDA2 — 一种用分块迭代精炼代替自回归解码的文本生成范式。这不是扩散模型生图的老故事,而是把扩散思路用在了语言模型上。新的生成范式,现在可以在标准库里直接实验了。 详情 →

NVIDIA 发布量化版 Kimi-K2.6,消费级显卡可跑。 NVIDIA 的 LLM Compressor 团队发布了 Kimi-K2.6 的 NVFP4 和 FP8 量化检查点。GPU 厂商亲自做量化,意味着他们在认真投入开源模型生态 — 你的 RTX 4090 现在能跑一个接近前沿水平的开源模型了。(198 likes | 21 RTs) 详情 →


🔬 研究前沿

AI 心理治疗首个严格 RCT 出结果:有效,而且效果持续半年。

一项针对墨西哥女性的随机对照试验(RCT)显示,AI 心理治疗聊天机器人在 6 个月内显著改善了心理健康、睡眠、日常功能和就业指标,效应量 0.3 个标准差,且未增加严重病例。这是 AI 心理干预领域最强的因果证据之一 — 不是问卷调查,是真正的临床试验。规模化心理健康服务的可能性又近了一步。(458 likes | 56 RTs) 详情 →

英国安全测试组:GPT-5.5 的网络攻击能力接近 Anthropic Mythos。 英国 AI 安全测试机构发现,GPT-5.5 在一项企业网络攻击模拟中 10 次尝试成功了 2 次,与 Anthropic 尚未发布的 Mythos 模型大致持平。这是首次由政府评估机构对前沿模型的网络安全能力做正面对比。 详情 →

Qwen 开源可解释性工具包 Qwen-Scope。 Qwen 发布了 Qwen-Scope,在 Qwen3.5-27B 上提供稀疏自编码器(Sparse Autoencoders)用于可解释性研究。前沿级模型的开源可解释性工具 — 这降低了机械可解释性研究的门槛,不再只有大实验室才能做。(186 likes | 34 RTs) 详情 →


🔧 开发者工具

Claude Code v2.1.126:项目清理和模型选择器。 新版 Claude Code 加了 claude project purge 命令做完整状态清理,网关 /v1/models 集成让模型选择更灵活,还改进了 skip-permissions 行为。日常用户的体验提升。延伸阅读:Claude Code 有什么特别的? 详情 →

Paperclip 现在能全文搜索 arXiv 和 PubMed 的全部论文。 覆盖所有 arXiv、PubMed Central 全文加 1.5 亿篇摘要 — 做文献综述不用再东拼西凑多个搜索引擎了。目前最全的开放研究发现工具。(1,426 likes | 203 RTs) 详情 →

AI CLI:在终端里用管道串联图像、视频和文本生成。 Unix 哲学 + AI 生成:一个 CLI 工具让你像 cat | grep 一样把多个 AI 模型的输入输出串起来。数百个模型、多模型对比、内联预览,不需要额外依赖。基于 AI SDK + AI Gateway 构建。(428 likes | 17 RTs) 详情 →


📝 技术实战

一个 CLAUDE.md 配置,一周省了 50% token 用量。 核心思路:在 CLAUDE.md 里设定任务委派规则 — 批量工作用 Haiku,调研用 Sonnet,只有深度推理才用 Opus。有人实测一周下来 token 消耗减半。具体、可验证、今天就能抄。(337 likes | 29 RTs) 详情 →


🏗️ 值得一试

非技术 PM 用 Claude Code 六周做出了一个完整 App。 一个没有编程背景的产品经理,只用 Claude Code 在六周内从零构建并上线了一个压力管理应用。这不是"AI 帮我写了个函数"的故事,而是完整的产品开发 — 从设计到部署。"谁能写软件"这个问题的答案正在被重新定义。 详情 →

Gemma 4 本地 Agent 搭建指南:多模态 + MCP 工具发现。 Google 发布了一个实操 notebook,展示 Gemma 4 在本地用 Haystack 框架搭建多模态 Agent — 地图/天气 Agent、通过 GitHub MCP 服务器动态发现工具、可组合的 Agent 模式。Clone 下来就能跑。(208 likes | 19 RTs) 详情 →


🎓 模型小课堂

模型蒸馏(Model Distillation):今天 HuggingFace CEO 和 LeCun 关于蒸馏的争论,揭示了一个核心矛盾。模型蒸馏就是让一个小模型去"学习"大模型的输出 — 大模型当老师,小模型当学生,学生不需要从头学习所有知识,只需要模仿老师的答题方式。几乎所有主要实验室都用这个技术训练过自己的模型,但现在有些实验室想限制别人用蒸馏 — 理由是保护知识产权,实际效果是阻止开源模型追赶。Kimi 2.6 这样的开源模型能突然变得这么能打,蒸馏功不可没。理解蒸馏,就理解了为什么"开源 vs 闭源"这场仗的关键不在模型大小,而在训练方法论的开放程度。


⚡ 快讯

  • Code with Claude 开发者大会:下周回归,各级别开发者都有对应 session,赶紧注册。(5,486 likes | 499 RTs) 链接
  • Anthropic Bedrock SDK v0.29.1:修复了流式传输中错误事件静默失败的 bug — 如果你在 Bedrock 上跑 Claude,立即更新,否则 Agent 循环可能卡死不报错。 链接
  • Mollick:别把 AI 当个人生产力工具想:组织本身就是超人智能,AI 改变的是组织智能的运作方式,不只是个人效率。(368 likes | 45 RTs) 链接
  • GPT-5.5 要在 5 月 5 日 5:55 PM 给自己办派对:Codex 帮忙筛选参会者 — OpenAI 的营销团队越来越会玩了。(5,733 likes | 358 RTs) 链接

🎯 今日精选

英国政府红队测试揭示:公开跑分不再是前沿模型的真正看门人。 英国 AI 安全测试机构对 GPT-5.5 和 Anthropic Mythos 进行的企业网络攻击模拟,释放了一个重要信号 — 政府红队评估,而非公共 benchmark,正在成为前沿模型能否部署的真正关卡。GPT-5.5 和 Mythos 在网络攻击能力上的趋同更值得关注:当不同实验室的顶级模型在敏感能力上达到相似水平时,"能力遏制"从是否可能变成了何时到来的问题。对行业来说,这意味着监管评估的话语权在上升,未来前沿模型的发布节奏可能越来越多地取决于政府测试组说"可以",而不是实验室自己说"准备好了"。 详情 →


下期见 ✌️