30B 参数模型只用 3B 就拿了奥赛金牌

🧠 发布动态

30B 参数模型只用 3B 就拿了奥赛金牌。

Stingning 团队发布了一个 30B-A3B 的 MoE 推理模型，在物理和数学奥林匹克评测中双双达到金牌水平 — 关键是每次推理只激活 30 亿参数。这意味着你用一张消费级显卡就能跑金牌级别的数理推理。参数量标签越来越不靠谱了：一个"300 亿"的模型，实际推理成本可能比你想象的低一个数量级。本地部署党，这个值得第一时间下载跑一跑。(1,164 likes | 133 RTs) 详情 →

NVIDIA 开源 SANA-WM：26 亿参数世界模型，一分钟 720p 视频：NVIDIA 放出 SANA-WM — 一个 2.6B 参数的开源世界模型，能生成一分钟的 720p 视频。视频生成终于从"大厂专属"走向了开源可用的阶段，720p 一分钟是一个有实际意义的质量门槛。(284 likes | 118 RTs) 详情 →

💡 行业洞察

GPT-5.5 Codex 翻车 48 小时，OpenAI 紧急修复。

如果你这两天用 Codex 写代码觉得"变笨了"，不是错觉。OpenAI 确认 GPT-5.5 在 Codex 中出现了约 48 小时的能力回退，已经定位并修复了两个问题。这事值得注意的不只是 bug 本身 — 而是 frontier 模型在生产环境中并不是静态的，性能会波动，而且你可能毫无感知。OpenAI 这次的透明度值得肯定，但也提醒我们：关键工作流不要盲信单一模型。(7,467 likes | 494 RTs) 详情 →

Frontier AI 杀死了 CTF — 这不只是安全圈的事。

一篇来自 CTF 社区的深度分析引爆讨论：当 AI 能自动解题时，参赛者的时间从"搞安全"变成了"写 prompt"。CTF 竞赛的死亡不是一个小众话题 — 它是 AI 颠覆人类竞技领域的第一张多米诺骨牌。编程竞赛、数学竞赛、甚至法律模拟法庭，所有 AI 迭代速度超过人类的技能领域都会面临同样的存亡选择：是封杀 AI 还是重新定义比赛？(329 likes | 308 RTs) 详情 →

Gemini Pro 传言：GPT-5.5 级别编码能力，价格砍半：有消息称 Google 即将发布的 Gemini Pro 编码能力对标 GPT-5.5，但输出 token 价格仅 $12/百万 — 比 GPT-5.5 便宜超过 50%。如果属实，Google 在性价比上的激进定价会把 OpenAI 和 Anthropic 都逼到墙角。等官宣，但可以开始准备迁移测试了。(951 likes | 28 RTs) 详情 →

前 xAI 联合创始人还没造产品就融了 10 亿美元：Igor Babuschkin 从 xAI 出走后创办 River AI，General Catalyst 领投，估值 50 亿美元 — 产品还没有。AI 领域的人才溢价已经变成了一种独立的资产类别。当你的履历本身就值 50 亿估值，这个市场的泡沫指数又上了一个台阶。(209 likes | 20 RTs) 详情 →

🔬 研究前沿

PrimeIntellect 让 Claude Code 和 Codex 自主跑科研任务。

PrimeIntellect 做了一件大事：让 Claude Code（Opus 4.7）和 Codex（GPT-5.5）在 AI 研究任务上自主运行 — 不是写代码补全，而是真正的科学研究工作。这是 frontier agent 从"工具"进化为"研究员"的具体证据。自动化 AI 研究是下一个大台阶，而这个实验证明我们已经踩上去了。(1,694 likes | 152 RTs) 详情 →

Anthropic 的 Mythos 找到了 250 个安全漏洞，之前的模型只找到 22 个：Anthropic CFO 透露，他们内部的 Mythos 模型在安全测试中发现了 250 个漏洞 — 而之前的 frontier 模型只找到 22 个。11 倍的提升直接解释了为什么 Anthropic 对这个模型的发布如此谨慎。能力越强，责任越大 — 但也意味着 AI 辅助安全审计的天花板被大幅抬高了。(82 likes | 17 RTs) 详情 →

能量基模型（EBM）回来了 — LeCun 的结构验证理论终于落地：Yann LeCun 多年来一直在说"AI 推理需要先验证结构再生成答案"，现在 Energy-Based Models 开始有了实际落地。EBM 的核心思想是：与其让模型直接生成答案，不如先用能量函数检验候选方案的结构合理性。这条路线和主流的自回归生成走的是完全不同的方向，值得关注。(212 likes | 37 RTs) 详情 →

第二缩放定律依然无敌：更多思考 token = 更好结果，看不到天花板：Ethan Mollick 确认，测试时计算缩放（test-time compute scaling）在黑客、数学、科学、甚至填字游戏中都持续有效 — 给模型更多思考时间，结果就更好，目前没有看到任何收益递减的迹象。这对你的推理预算规划意味着：在当前阶段，砸 token 就是砸准确率。(282 likes | 23 RTs) 详情 →

🔧 开发者工具

Codex 现在可以串联控制多台电脑：OpenAI 的 Codex 不只能通过 ChatGPT 远程控制一台电脑了 — 现在可以菊花链式连接多台设备。你可以在 ChatGPT 里统一调度多台机器上的 Codex，不用来回切换。这把 Codex 从单机编码助手变成了多机编排层。(515 likes | 71 RTs) 详情 →

HomeClaw：用 AI Agent 控制你的 Apple Home：HomeClaw 发布了 CLI + MCP + OpenClaw 插件，让任何 AI agent 都能控制 Apple Home。从命令行创建场景、控制设备 — 智能家居自动化正式进入 agent-native 时代。(197 likes | 19 RTs) 详情 →

Open Code + Qwen 3.6 Plus：完全免费的编码 Agent 方案：Open Code 搭配 Qwen 3.6 Plus — 不要订阅，不要信用卡，开源编码 agent 接旗舰编码模型，预览期完全免费。如果你想零成本体验 AI 编码助手，现在就是最佳窗口。(26 likes | 5 RTs) 详情 →

📝 技术实战

DeepSeek-V4-Flash 让 Steering Vectors 重新变得实用：Steering vectors 是一种在推理时通过添加激活向量来修改模型行为的技术 — 不需要微调。DeepSeek-V4-Flash 的架构让这项技术重新变得可操作：你可以在不训练模型的情况下，精确调整模型的输出倾向。对于想要定制模型行为又不想烧微调算力的团队，这是一条值得探索的路。(199 likes | 67 RTs) 详情 →

Anthropic 放出 2 小时 Claude Agent 大师课：由 Claude Code 背后的工程师主讲，覆盖终端访问、记忆系统、hooks、幻觉缓解 — 从零到构建自主 agent 的完整路径。如果你在用 Claude 做 agent 开发，这两小时能帮你少踩很多坑。(118 likes | 16 RTs) 详情 →

🏗️ 值得一试

Multica：把编码 Agent 变成托管队友的开源平台：Multica 开源了一个 managed agent 平台 — 你可以像管团队一样给 coding agent 分配任务、跟踪进度、积累技能。把 AI agent 从"临时帮手"升级为"正式队员"的思路，架构值得一看。(28,848 likes | 3,494 RTs) 详情 →

Zerostack v1.0：Unix 哲学的纯 Rust 编码 Agent：Zerostack 用纯 Rust 实现了一个遵循 Unix 哲学的编码 agent — 把 agent 操作当作可组合的管道而非整体会话。v1.0 意味着可以认真用了，cargo install 即可。(78 likes | 23 RTs) 详情 →

从零构建个人 AI Agent：动机、架构和实际意义：一位实践者分享了构建个人 AI agent 的完整故事 — 为什么要做、怎么设计、踩了什么坑。不是教程而是思考过程，对正在考虑"是否该给自己做一个 agent"的人来说，这是很好的决策参考。(1,157 likes | 191 RTs) 详情 →

🎓 模型小课堂

混合专家模型（MoE）和活跃参数：今天那个拿奥赛金牌的 30B-A3B 模型，"30B"是总参数量，"3B"是每次推理实际用到的参数量。这就是 MoE（Mixture of Experts）的核心思想：模型内部有很多组"专家"子网络，每次输入只激活其中一小组最相关的专家来处理，其余的不参与计算。好处是显而易见的 — 模型可以拥有 300 亿参数的知识容量，但每次推理只消耗 30 亿参数的算力。这也是为什么现在看模型参数量越来越不靠谱：标签上写的是总参数，实际跑的是活跃参数，两者可能差一个数量级。

⚡ 快讯

Cerebras 以 600 亿美元估值 IPO：AI 芯片市场终于有了 NVIDIA 之外的公开可比标的，晶圆级架构正式接受市场检验。链接
Claude API 灰色市场：牛津研究人员发现中国灰色市场以官方价 10% 出售 Claude API 访问权限，利用大量促销积分和免费试用账号。API 安全是时候重新审视了。(65 likes | 8 RTs) 链接
Warelay 更名 OpenClaw：AI 助手开发平台换了新身份，Simon Willison 有详细解读。链接
微软免费 AI Agent 课程：15 节课 + 代码 + 视频，覆盖 agentic RAG、多 agent、MCP、A2A 协议，从零到构建生产级 AI agent。(541 likes | 94 RTs) 链接

🎯 今日精选

CTF 竞赛之死不只是安全圈的事 — 它是 AI 颠覆人类竞技的第一张多米诺骨牌：当 frontier AI 能在几分钟内解出人类选手需要几小时的题目时，CTF 比赛的核心逻辑就崩了。但这不是一个安全小众话题 — 它是所有"AI 迭代速度超过人类"的竞技领域的预演。编程竞赛、数学奥赛、法律模拟、甚至医学诊断竞赛，都会面临同样的拷问：当 AI 成为房间里最强的选手，比赛还有意义吗？CTF 社区正在经历的撕裂 — 一边是"禁止 AI 参赛"的保守派，一边是"拥抱 AI 重新定义比赛"的改革派 — 这个争论会在未来两年蔓延到每一个以技能竞赛为核心的社区。那些把身份认同建立在"我能解别人解不了的题"之上的群体，需要在守门和重塑之间做出选择。详情 →

下期见 ✌️