OpenAI 发布 GPT-5.4 Mini 和 Nano — 速度翻倍，专为 Agent 而生

🧠 发布动态

OpenAI 发布 GPT-5.4 Mini 和 Nano — 速度翻倍，专为 Agent 而生。

GPT-5.4 mini 比 GPT-5 mini 快 2 倍，在编码、计算机操作、多模态理解和子 Agent 场景上做了专项优化。nano 是 GPT-5.4 家族最便宜的变体。这不是简单的"小模型" — 而是通过模型蒸馏（Model Distillation）针对特定任务剖面优化的变体，某些场景下跑分反超大模型。ChatGPT、Codex、API 全线可用，现在就去测你的工作流。(2,413 likes | 229 RTs) 详情 →

Mistral 推出 Forge：在你自己的数据上训练前沿模型。

Mistral Forge 让企业用私有数据 — 内部文档、工作流、合规策略 — 训练前沿级模型。这是 Mistral 对企业微调市场的重拳出击，直接叫板 OpenAI 和 Google 的定制化方案。有领域专有数据的团队，该认真评估了。(2,010 likes | 257 RTs) 详情 →

Google 全面推进"个人智能"：AI Mode 登陆 Google 搜索，Gemini 和 Chrome 同步接入个性化能力。信号很明确 — 消费端的主战场不再是模型能力，而是谁更懂你。去搜索里试试 AI Mode。详情 →

IBM Granite 4.0 1B Speech 发布：10 亿参数的多语言语音模型，小到能跑在端侧设备上。对需要离线语音识别的边缘部署场景来说，这是个实用选项。(221 likes | 42 RTs) 详情 →

百度千帆 OCR 开源：4B 参数的端到端 OCR 模型 Qianfan-OCR，不只是认字 — 能推理文档版面布局。支持复杂文档结构，在文档智能赛道上和 GLM-OCR 正面竞争。做文档处理的，拿去和你现有管线对比一下。(124 likes) 详情 →

🔧 开发者工具

Claude Dispatch 来了：永不下线的 AI 助手，手机随时能喊。

Anthropic 的 Claude Cowork 推出 Dispatch 功能 — Claude 在你电脑上持续运行，你用手机发消息给它，回来时活儿已经干完了。14,600+ 点赞说明开发者对这种"AI 后台常驻"的形态有多渴望。下载 Claude Desktop，配对手机，今天就能用。(14,611 likes | 1,155 RTs) 详情 →

Google Colab 开源 MCP Server：现在你可以从 Gemini CLI、Antigravity 或任何 MCP 兼容客户端直接调用 Colab 的云端 GPU。本地 Agent + 远程算力，这个模式很多人等很久了。(243 likes | 39 RTs) 详情 →

Leanstral：Mistral 开源形式化证明 Agent：专门为 Lean 证明工程设计的编码 Agent。通过数学证明来保证代码正确性，这条路很少有实验室在走。做形式化验证的，值得试试。(695 likes | 163 RTs) 详情 →

Google 推出 Sashiko：AI 审查 Linux 内核代码：Google 工程师把 AI Agent 投入了软件界最严苛的代码审查环境 — Linux 内核。如果在这里能跑通，就证明 AI 代码审查可以用于关键基础设施。(37 likes | 13 RTs) 详情 →

📝 技术实战

Simon Willison 定义"Agentic Engineering"：Agent 满天飞的今天，终于有人认真定义这门学科了。Willison 的 agentic engineering 模式指南新增了第 12 章，从概念到实践系统梳理。这正在成为这个领域的参考教材。(678 likes | 75 RTs) 详情 →

数据新闻 × 编码 Agent 实战工坊：Willison 在 NICAR 会议上的 workshop 材料，手把手教你用 Codex CLI 和 Claude Code 做数据探索、可视化和分析。做数据工作的直接拿来用。(605 likes | 71 RTs) 详情 →

🔬 研究前沿

DeepMind 提出 AGI 认知度量框架，配套 20 万美元 Kaggle 竞赛。

"AGI 到底到了几成？"这个问题一直缺乏标准答案。DeepMind 现在给出了一个正式的认知框架来衡量进展，并用 20 万美元 Kaggle 竞赛来众包认知评估任务。如果这套框架被行业采纳，它可能成为衡量 AGI 进展的标准尺子。(625 likes | 89 RTs) 详情 →

RCT 实证：AI 家教真的有用 — 效果相当于多上 6-9 个月学：一项严格的随机对照实验表明，基于 GPT-4o 的个性化 AI 家教让高中生成绩提升了 0.15 个标准差。这是迄今最强的因果证据，证明 AI 辅导在规模化场景下确实有效。做教育科技的必读。(865 likes | 151 RTs) 详情 →

NVIDIA 发布首个医疗机器人数据集和基础模型：专门为医疗机器人设计的开放数据集和基础模型，连接 NVIDIA 的物理 AI 布局和真实医疗场景。做机器人研究的去看看。详情 →

💡 行业洞察

Mistral × NVIDIA 联手：共建前沿开源模型。

Mistral 的模型架构 + NVIDIA 的算力栈，两家宣布战略合作共同开发前沿开源模型。NVIDIA 的"军火商"角色越来越明显 — 同时给多家 AI 实验室输送弹药。关注后续联合发布的模型。(3,708 likes | 351 RTs) 详情 →

Snowflake AI 沙箱被攻破，成功执行恶意代码：安全研究人员演示了 Snowflake AI 沙箱逃逸并执行恶意软件的完整链路。AI 沙箱隔离比想象中难得多 — 所有急着把 AI 塞进生产环境的企业，该回去审计一下自己的安全边界了。(131 likes | 30 RTs) 详情 →

Anthropic 发布 81,000 人 AI 使用调查：有史以来最大规模的 AI 用户定性研究 — 一周内收到 81,000 份回复。用户实际在用 AI 做什么 vs. 期望和担忧什么，数据量大到可以指导每个做 AI 产品的团队。(1,066 likes | 159 RTs) 详情 →

Google 和 Anthropic 同一周投资开源安全：Google 发布 AI 驱动的开源安全工具，Anthropic 向 Linux 基金会捐款支持 AI 时代的开源安全。同一周两大巨头同时出手，说明行业正在认真对待一个现实：AI 让代码库增长的速度远超人类审查能力。(774 likes | 69 RTs) 详情 →

🏗️ 值得一试

Holotron-12B：高吞吐开源计算机操作 Agent：一个 12B 参数的开源模型，专为计算机操作任务设计，强调高吞吐。当 computer use 正在成为 Agent 标配能力时，拥有开源替代方案很重要。做 Agent 的去测测。详情 →

🎓 模型小课堂

模型蒸馏 vs. 架构变体：GPT-5.4 mini 和 nano 不是简单地"把大模型缩小" — 它们是通过蒸馏（Distillation）技术，用大模型的输出来训练小模型，同时针对特定任务（编码、计算机操作、子 Agent）做了优化。这就解释了为什么"mini"在某些跑分上能反超原版大模型，而成本只是零头。类比一下：大模型是全科医生，蒸馏出来的小模型是专科医生 — 在自己的领域反而更强。

⚡ 快讯

Code with Claude 开发者大会：旧金山、伦敦、东京三城举办，全天 workshop + demo + 1:1 office hours，支持远程观看。(2,496 likes | 195 RTs) 链接
Google 发布 AI 驱动的开源安全工具：针对代码安全的新工具集。链接
Hugging Face 开源生态报告 Spring 2026：模型上传、数据集增长、社区活跃度全景扫描。链接
Hacker News 全量归档上线：4700 万+ 条目、11.6GB Parquet 格式，每 5 分钟更新。拿去做 NLP 实验或趋势分析。(55 likes | 14 RTs) 链接

🎯 今日精选

Snowflake AI 沙箱逃逸不只是一个 bug — 它撕开了企业 AI 安全的遮羞布：安全研究人员证明 Snowflake 的 AI 沙箱可以被突破并执行恶意代码。这不是理论攻击，是实际演示。耐人寻味的是时间节点 — 同一周，Google 和 Anthropic 都在加码开源安全投资。行业巨头们显然早就知道问题有多严重。现实是：企业把 AI 部署到生产环境的速度，远超安全防护跟上的速度。每个在生产环境里跑 AI Agent 的团队，现在就该回去审计沙箱边界、权限隔离和逃逸路径。不是"是否会被攻破"的问题，是"什么时候"的问题。详情 →

下期见 ✌️