"下一代模型可能更差" — 前沿 AI 撞上了能力回退墙

💡 行业洞察

"下一代模型可能更差" — 前沿 AI 撞上了能力回退墙

一个尖锐的观察正在圈内发酵：Opus 4.7 合法地不如 4.6，Gemini 3.1 不如 2.5，Sonnet 4.6 比 4.5 bug 更多。这不是某一家的问题 — 三大厂同时出现代际回退，说明 scaling era 那个"模型只会越来越好"的基本假设正在动摇。对开发者的直接影响：别再无脑 auto-upgrade 了，pin 住你验证过的版本号，建立自己的 eval 流程。整个行业的竞争逻辑建立在"下一代碾压上一代"的前提上，如果这个前提不成立了，游戏规则要重写。(495 likes | 38 RTs) 详情 →

DeepSeek 瞄准 73.5 亿美元融资，中国 AI 史上最大一轮

DeepSeek 正在寻求高达 73.5 亿美元的融资，如果达成将成为中国 AI 创业公司史上最大单轮。这标志着 DeepSeek 从"搞研究的实验室"向商业实体的转型 — 据报道正在从字节跳动挖产品人才。对标来看，OpenAI 上轮融了 66 亿，DeepSeek 要直接超过。钱到位之后，开源模型的军备竞赛只会更猛。(21 likes) 详情 →

GGUF 模型创建量爆发 — 本地 AI 运动有数据撑腰了：HuggingFace CEO Clem Delangue 晒出过去 8 个月 GGUF 模型创建数量的增长曲线 — 不是线性增长，是指数级。本地推理不再是极客的玩具，正在成为一个真实的生态。如果你还没试过在自己机器上跑模型，现在是时候了。(194 likes | 30 RTs) 详情 →

本地 AI 应该是默认选项，而不是备选：一篇 439 赞的 Hacker News 长文直接喊话：本地 AI 需要成为常态。隐私、延迟、成本、离线可用 — 每一条理由都很硬。配合上面 GGUF 的增长数据，这不是空喊口号，而是正在发生的趋势。(439 likes | 220 RTs) 详情 →

英伟达 2026 年已砸 400 亿美元做 AI 股权投资：Nvidia 不只是卖铲子的了 — 今年已经往 AI 公司的股权里投了 400 亿美元。GPU 垄断正在变成投资帝国，既卖矿机又买矿。这种垂直整合的力度，让人想起当年的软银愿景基金，但筹码更硬。详情 →

Google I/O 将决定 Gemini 是产品还是基础设施：本月最大的 AI 活动就要来了。一个犀利的判断：要么 Gemini 模型在多条战线上证明自己能打，要么谷歌的 AI 故事就要从"我有最强模型"转向"我有最多算力"。考虑到 Gemini 3.1 刚被指出不如 2.5，这次 I/O 的压力不小。(227 likes) 详情 →

📝 技术实战

AI 工程也有了自己的"Kubernetes The Hard Way"

swyx 的推荐分量你懂的 — 他说这个资源之于 AI 工程师，就像 Kelsey Hightower 的 "Kubernetes The Hard Way" 之于基础设施工程师：每个 AI 工程师都该完整做一遍。不是看教程，是动手从头构建。623 赞不是白来的，收藏加入周末 TODO。(623 likes | 38 RTs) 详情 →

Shopify 的 AI Agent 只能在公开频道用 — 这恰恰是亮点

Simon Willison 拆解了 Shopify 内部 AI Agent 系统 River 的一个精妙设计：只能在公开 Slack 频道使用，不支持私聊。听着像限制？其实是杀手锏 — 员工通过围观别人的 prompt 来学习，就像 Midjourney 早期只在 Discord 公开频道运行一样。组织级 AI 能力的扩散，靠的不是培训文档，而是可观察性。(535 likes | 24 RTs) 详情 →

MCP 的隐藏 Token 税：5 个 Server 还没干活就烧掉 5.5 万 Token：Akshay Pachaar 做了一组硬核对比 — Playwright MCP 吃 13,700 token，Chrome DevTools MCP 吃 18,000 token，5 个 MCP Server 的配置一启动就烧掉 55,000 token，还没开始干正事。如果你在用 MCP 架构搭 Agent，先算算你的 token 账单里有多少是"呼吸税"。(189 likes | 26 RTs) 详情 →

HTML 才是 Claude Code 最强输出格式：一篇 405 赞的深度文章论证了一个反直觉的观点 — 用 HTML 而不是 Markdown 作为 Claude Code 的主要输出格式，效果出奇地好。交互性、样式控制、可预览 — HTML 天然适合 Agent 工作流的输出。接上上期 swyx 的"HTML is the new Markdown"论点，这个趋势越来越实了。(405 likes | 234 RTs) 详情 →

🔧 开发者工具

GPT-Realtime-2 进军企业：语音控制对接 CRM 工作流：OpenAI 展示了一个具体的 CRM 语音集成案例 — 用 GPT-Realtime-2 实现语音操控客户管理流程。这不是"嘿 Siri 设个闹钟"的级别，而是语音 API 从"酷炫 demo"走向"企业级工作流"的实际落地。如果你在做 to-B 产品，语音交互这条路值得现在就跑起来。(813 likes | 58 RTs) 详情 →

GBrain 发布 MCP Thin Client：一台服务器，万物互联：GBrain v0.31.1 支持了真正的 MCP thin client — 在家跑一台 GBrain 服务器，所有工具通过 MCP 协议接入。Garry Tan 亲自背书（432 赞），MCP 正在从开发者工具走向主流基础设施。(432 likes | 35 RTs) 详情 →

🏗️ 值得一试

Codex 自动报销费用 — 发票、表格、流程全搞定：一位 OpenAI 员工记录了 Codex 自主完成报销流程的全过程 — 下载发票、更新表格、填写报销单，用了 Drive、Gmail 和 Chrome，全程无人干预。这可能是迄今为止最有说服力的"AI Agent 不只是写代码"的演示。(307 likes) 详情 →

粘贴一个 GitHub 仓库，生成函数调用关系的交互知识图谱：一个开源工具，输入任意 GitHub 仓库 URL，输出基于 D3.js 的交互式知识图谱 — 每个函数、每条调用关系一目了然，还支持自然语言查询。接手不熟悉的代码库？这比读文档快 10 倍。(41 likes) 详情 →

🧠 发布动态

五月模型实力排行：GPT 5.5 称霸代码，Grok 4.3 最会找真相：Bindureddy 的月度模型排名出炉 — 编程：GPT 5.5，求真：Grok 4.3，视频：SeeDance 2.0，图像：GPT Image 2.0，语音：Gemini Live，最佳开源：DeepSeek v4。他的结尾意味深长："Google I/O 之后一切都会变。"(361 likes | 28 RTs) 详情 →

Anthropic 下周在旧金山连办两场黑客松：Boris Cherny 转发了 Claude 开发者团队的公告 — 下周旧金山背靠背两场黑客松。1,775 赞的热度说明 Claude 开发者社区的活跃度在起飞。在 SF 的朋友，冲。(1,775 likes | 69 RTs) 详情 →

🎓 模型小课堂

模型代际能力回退（Capability Regression）：今天的头条说"新模型反而更差了"，这到底怎么回事？模型升级时出现能力回退，通常有几个原因：一是训练数据污染 — 新数据集可能覆盖了旧版本学得好的能力；二是 RLHF 过度优化 — 为了在安全性指标上拿高分，牺牲了某些实用能力；三是能力权衡 — 在对齐过程中，模型在某些维度变强的同时，其他维度可能变弱。理解这些机制，能帮你做一个关键决策：是自动升级到最新版，还是 pin 住经过验证的版本号。

⚡ 快讯

Mollick：AI 普及已经走出旧金山：最疯狂的 AI 用例现在出现在科学、法律、金融和教育领域，不再是硅谷专属。(414 likes) 链接
Altman 暗示下一个 OpenAI 模型叫"Goblin"：5,816 赞的推文，半开玩笑半认真。OpenAI 的品牌策略越来越放飞了。(5,816 likes) 链接
Claude 的"人格化"问题值得认真对待：Mollick 分析 Anthropic 给 Claude 取人名、写宪法、塑造性格的做法如何影响用户行为和期望。(323 likes) 链接
PS3 模拟器开发者求求你们别再发 AI 生成的 PR 了：RPCS3 维护者公开吐槽被低质量 AI 代码淹没 — "AI slop"问题正在冲击开源社区。链接
用 Subagent 拯救你的主上下文窗口：把研究、测试、浏览器分别交给子 Agent，主窗口只做决策 — 实用的 token 节省策略。(94 likes) 链接
Claude Code v2.1.138 继续修稳定性：过去两周已经推了 110+ 个修复，Anthropic 在狂补基础体验。链接

🎯 今日精选

前沿模型集体"退步" — 行业最核心的假设正在崩塌：Opus 4.7 不如 4.6，Gemini 3.1 不如 2.5，Sonnet 4.6 比 4.5 更多 bug — 三大厂同时出现代际回退，这不是巧合。Scaling era 的核心信仰是"模型只会越来越好"，整个行业的竞争逻辑、产品规划、投资决策都建立在这个前提上。但如果单纯堆参数和数据的增长曲线正在弯折 — 训练数据污染、RLHF 过度拟合、对齐过程中的能力权衡 — 那"等下一代模型就好了"这句话就不再是安全的赌注。对开发者的实际影响很直接：pin 版本、建 eval、别再无脑 auto-upgrade。对行业的影响更深远：如果单纯 scaling 不再保证进步，差异化竞争将从"谁的模型更大"转向"谁的工程和产品做得更好"。这可能是 AI 行业从"模型为王"进入"应用为王"的转折信号。详情 →

下期见 ✌️