NewsletterBlogLearnCompareTopicsGlossary
English
RESEARCHINSIGHTLAUNCHTOOLTECHNIQUEBUILD

22 条资讯

30B 参数模型只用 3B 就拿了奥赛金牌

🧠 发布动态

30B 参数模型只用 3B 就拿了奥赛金牌。

Stingning 团队发布了一个 30B-A3B 的 MoE 推理模型,在物理和数学奥林匹克评测中双双达到金牌水平 — 关键是每次推理只激活 30 亿参数。这意味着你用一张消费级显卡就能跑金牌级别的数理推理。参数量标签越来越不靠谱了:一个"300 亿"的模型,实际推理成本可能比你想象的低一个数量级。本地部署党,这个值得第一时间下载跑一跑。(1,164 likes | 133 RTs) 详情 →

NVIDIA 开源 SANA-WM:26 亿参数世界模型,一分钟 720p 视频:NVIDIA 放出 SANA-WM — 一个 2.6B 参数的开源世界模型,能生成一分钟的 720p 视频。视频生成终于从"大厂专属"走向了开源可用的阶段,720p 一分钟是一个有实际意义的质量门槛。(284 likes | 118 RTs) 详情 →


💡 行业洞察

GPT-5.5 Codex 翻车 48 小时,OpenAI 紧急修复。

如果你这两天用 Codex 写代码觉得"变笨了",不是错觉。OpenAI 确认 GPT-5.5 在 Codex 中出现了约 48 小时的能力回退,已经定位并修复了两个问题。这事值得注意的不只是 bug 本身 — 而是 frontier 模型在生产环境中并不是静态的,性能会波动,而且你可能毫无感知。OpenAI 这次的透明度值得肯定,但也提醒我们:关键工作流不要盲信单一模型。(7,467 likes | 494 RTs) 详情 →

Frontier AI 杀死了 CTF — 这不只是安全圈的事。

一篇来自 CTF 社区的深度分析引爆讨论:当 AI 能自动解题时,参赛者的时间从"搞安全"变成了"写 prompt"。CTF 竞赛的死亡不是一个小众话题 — 它是 AI 颠覆人类竞技领域的第一张多米诺骨牌。编程竞赛、数学竞赛、甚至法律模拟法庭,所有 AI 迭代速度超过人类的技能领域都会面临同样的存亡选择:是封杀 AI 还是重新定义比赛?(329 likes | 308 RTs) 详情 →

Gemini Pro 传言:GPT-5.5 级别编码能力,价格砍半:有消息称 Google 即将发布的 Gemini Pro 编码能力对标 GPT-5.5,但输出 token 价格仅 $12/百万 — 比 GPT-5.5 便宜超过 50%。如果属实,Google 在性价比上的激进定价会把 OpenAI 和 Anthropic 都逼到墙角。等官宣,但可以开始准备迁移测试了。(951 likes | 28 RTs) 详情 →

前 xAI 联合创始人还没造产品就融了 10 亿美元:Igor Babuschkin 从 xAI 出走后创办 River AI,General Catalyst 领投,估值 50 亿美元 — 产品还没有。AI 领域的人才溢价已经变成了一种独立的资产类别。当你的履历本身就值 50 亿估值,这个市场的泡沫指数又上了一个台阶。(209 likes | 20 RTs) 详情 →


🔬 研究前沿

PrimeIntellect 让 Claude Code 和 Codex 自主跑科研任务。

PrimeIntellect 做了一件大事:让 Claude Code(Opus 4.7)和 Codex(GPT-5.5)在 AI 研究任务上自主运行 — 不是写代码补全,而是真正的科学研究工作。这是 frontier agent 从"工具"进化为"研究员"的具体证据。自动化 AI 研究是下一个大台阶,而这个实验证明我们已经踩上去了。(1,694 likes | 152 RTs) 详情 →

Anthropic 的 Mythos 找到了 250 个安全漏洞,之前的模型只找到 22 个Anthropic CFO 透露,他们内部的 Mythos 模型在安全测试中发现了 250 个漏洞 — 而之前的 frontier 模型只找到 22 个。11 倍的提升直接解释了为什么 Anthropic 对这个模型的发布如此谨慎。能力越强,责任越大 — 但也意味着 AI 辅助安全审计的天花板被大幅抬高了。(82 likes | 17 RTs) 详情 →

能量基模型(EBM)回来了 — LeCun 的结构验证理论终于落地Yann LeCun 多年来一直在说"AI 推理需要先验证结构再生成答案",现在 Energy-Based Models 开始有了实际落地。EBM 的核心思想是:与其让模型直接生成答案,不如先用能量函数检验候选方案的结构合理性。这条路线和主流的自回归生成走的是完全不同的方向,值得关注。(212 likes | 37 RTs) 详情 →

第二缩放定律依然无敌:更多思考 token = 更好结果,看不到天花板Ethan Mollick 确认,测试时计算缩放(test-time compute scaling)在黑客、数学、科学、甚至填字游戏中都持续有效 — 给模型更多思考时间,结果就更好,目前没有看到任何收益递减的迹象。这对你的推理预算规划意味着:在当前阶段,砸 token 就是砸准确率。(282 likes | 23 RTs) 详情 →


🔧 开发者工具

Codex 现在可以串联控制多台电脑OpenAI 的 Codex 不只能通过 ChatGPT 远程控制一台电脑了 — 现在可以菊花链式连接多台设备。你可以在 ChatGPT 里统一调度多台机器上的 Codex,不用来回切换。这把 Codex 从单机编码助手变成了多机编排层。(515 likes | 71 RTs) 详情 →

HomeClaw:用 AI Agent 控制你的 Apple HomeHomeClaw 发布了 CLI + MCP + OpenClaw 插件,让任何 AI agent 都能控制 Apple Home。从命令行创建场景、控制设备 — 智能家居自动化正式进入 agent-native 时代。(197 likes | 19 RTs) 详情 →

Open Code + Qwen 3.6 Plus:完全免费的编码 Agent 方案Open Code 搭配 Qwen 3.6 Plus — 不要订阅,不要信用卡,开源编码 agent 接旗舰编码模型,预览期完全免费。如果你想零成本体验 AI 编码助手,现在就是最佳窗口。(26 likes | 5 RTs) 详情 →


📝 技术实战

DeepSeek-V4-Flash 让 Steering Vectors 重新变得实用:Steering vectors 是一种在推理时通过添加激活向量来修改模型行为的技术 — 不需要微调。DeepSeek-V4-Flash 的架构让这项技术重新变得可操作:你可以在不训练模型的情况下,精确调整模型的输出倾向。对于想要定制模型行为又不想烧微调算力的团队,这是一条值得探索的路。(199 likes | 67 RTs) 详情 →

Anthropic 放出 2 小时 Claude Agent 大师课:由 Claude Code 背后的工程师主讲,覆盖终端访问、记忆系统、hooks、幻觉缓解 — 从零到构建自主 agent 的完整路径。如果你在用 Claude 做 agent 开发,这两小时能帮你少踩很多坑。(118 likes | 16 RTs) 详情 →


🏗️ 值得一试

Multica:把编码 Agent 变成托管队友的开源平台Multica 开源了一个 managed agent 平台 — 你可以像管团队一样给 coding agent 分配任务、跟踪进度、积累技能。把 AI agent 从"临时帮手"升级为"正式队员"的思路,架构值得一看。(28,848 likes | 3,494 RTs) 详情 →

Zerostack v1.0:Unix 哲学的纯 Rust 编码 AgentZerostack 用纯 Rust 实现了一个遵循 Unix 哲学的编码 agent — 把 agent 操作当作可组合的管道而非整体会话。v1.0 意味着可以认真用了,cargo install 即可。(78 likes | 23 RTs) 详情 →

从零构建个人 AI Agent:动机、架构和实际意义:一位实践者分享了构建个人 AI agent 的完整故事 — 为什么要做、怎么设计、踩了什么坑。不是教程而是思考过程,对正在考虑"是否该给自己做一个 agent"的人来说,这是很好的决策参考。(1,157 likes | 191 RTs) 详情 →


🎓 模型小课堂

混合专家模型(MoE)和活跃参数:今天那个拿奥赛金牌的 30B-A3B 模型,"30B"是总参数量,"3B"是每次推理实际用到的参数量。这就是 MoE(Mixture of Experts)的核心思想:模型内部有很多组"专家"子网络,每次输入只激活其中一小组最相关的专家来处理,其余的不参与计算。好处是显而易见的 — 模型可以拥有 300 亿参数的知识容量,但每次推理只消耗 30 亿参数的算力。这也是为什么现在看模型参数量越来越不靠谱:标签上写的是总参数,实际跑的是活跃参数,两者可能差一个数量级。


⚡ 快讯

  • Cerebras 以 600 亿美元估值 IPO:AI 芯片市场终于有了 NVIDIA 之外的公开可比标的,晶圆级架构正式接受市场检验。 链接
  • Claude API 灰色市场:牛津研究人员发现中国灰色市场以官方价 10% 出售 Claude API 访问权限,利用大量促销积分和免费试用账号。API 安全是时候重新审视了。(65 likes | 8 RTs) 链接
  • Warelay 更名 OpenClaw:AI 助手开发平台换了新身份,Simon Willison 有详细解读。 链接
  • 微软免费 AI Agent 课程:15 节课 + 代码 + 视频,覆盖 agentic RAG、多 agent、MCP、A2A 协议,从零到构建生产级 AI agent。(541 likes | 94 RTs) 链接

🎯 今日精选

CTF 竞赛之死不只是安全圈的事 — 它是 AI 颠覆人类竞技的第一张多米诺骨牌:当 frontier AI 能在几分钟内解出人类选手需要几小时的题目时,CTF 比赛的核心逻辑就崩了。但这不是一个安全小众话题 — 它是所有"AI 迭代速度超过人类"的竞技领域的预演。编程竞赛、数学奥赛、法律模拟、甚至医学诊断竞赛,都会面临同样的拷问:当 AI 成为房间里最强的选手,比赛还有意义吗?CTF 社区正在经历的撕裂 — 一边是"禁止 AI 参赛"的保守派,一边是"拥抱 AI 重新定义比赛"的改革派 — 这个争论会在未来两年蔓延到每一个以技能竞赛为核心的社区。那些把身份认同建立在"我能解别人解不了的题"之上的群体,需要在守门和重塑之间做出选择。 详情 →


下期见 ✌️