OpenAI 发布 GPT-5.4 Mini 和 Nano — 速度翻倍,专为 Agent 而生
🧠 发布动态
OpenAI 发布 GPT-5.4 Mini 和 Nano — 速度翻倍,专为 Agent 而生。
GPT-5.4 mini 比 GPT-5 mini 快 2 倍,在编码、计算机操作、多模态理解和子 Agent 场景上做了专项优化。nano 是 GPT-5.4 家族最便宜的变体。这不是简单的"小模型" — 而是通过模型蒸馏(Model Distillation)针对特定任务剖面优化的变体,某些场景下跑分反超大模型。ChatGPT、Codex、API 全线可用,现在就去测你的工作流。(2,413 likes | 229 RTs) 详情 →
Mistral 推出 Forge:在你自己的数据上训练前沿模型。
Mistral Forge 让企业用私有数据 — 内部文档、工作流、合规策略 — 训练前沿级模型。这是 Mistral 对企业微调市场的重拳出击,直接叫板 OpenAI 和 Google 的定制化方案。有领域专有数据的团队,该认真评估了。(2,010 likes | 257 RTs) 详情 →
Google 全面推进"个人智能":AI Mode 登陆 Google 搜索,Gemini 和 Chrome 同步接入个性化能力。信号很明确 — 消费端的主战场不再是模型能力,而是谁更懂你。去搜索里试试 AI Mode。 详情 →
IBM Granite 4.0 1B Speech 发布:10 亿参数的多语言语音模型,小到能跑在端侧设备上。对需要离线语音识别的边缘部署场景来说,这是个实用选项。(221 likes | 42 RTs) 详情 →
百度千帆 OCR 开源:4B 参数的端到端 OCR 模型 Qianfan-OCR,不只是认字 — 能推理文档版面布局。支持复杂文档结构,在文档智能赛道上和 GLM-OCR 正面竞争。做文档处理的,拿去和你现有管线对比一下。(124 likes) 详情 →
🔧 开发者工具
Claude Dispatch 来了:永不下线的 AI 助手,手机随时能喊。
Anthropic 的 Claude Cowork 推出 Dispatch 功能 — Claude 在你电脑上持续运行,你用手机发消息给它,回来时活儿已经干完了。14,600+ 点赞说明开发者对这种"AI 后台常驻"的形态有多渴望。下载 Claude Desktop,配对手机,今天就能用。(14,611 likes | 1,155 RTs) 详情 →
Google Colab 开源 MCP Server:现在你可以从 Gemini CLI、Antigravity 或任何 MCP 兼容客户端直接调用 Colab 的云端 GPU。本地 Agent + 远程算力,这个模式很多人等很久了。(243 likes | 39 RTs) 详情 →
Leanstral:Mistral 开源形式化证明 Agent:专门为 Lean 证明工程设计的编码 Agent。通过数学证明来保证代码正确性,这条路很少有实验室在走。做形式化验证的,值得试试。(695 likes | 163 RTs) 详情 →
Google 推出 Sashiko:AI 审查 Linux 内核代码:Google 工程师把 AI Agent 投入了软件界最严苛的代码审查环境 — Linux 内核。如果在这里能跑通,就证明 AI 代码审查可以用于关键基础设施。(37 likes | 13 RTs) 详情 →
📝 技术实战
Simon Willison 定义"Agentic Engineering":Agent 满天飞的今天,终于有人认真定义这门学科了。Willison 的 agentic engineering 模式指南新增了第 12 章,从概念到实践系统梳理。这正在成为这个领域的参考教材。(678 likes | 75 RTs) 详情 →
数据新闻 × 编码 Agent 实战工坊:Willison 在 NICAR 会议上的 workshop 材料,手把手教你用 Codex CLI 和 Claude Code 做数据探索、可视化和分析。做数据工作的直接拿来用。(605 likes | 71 RTs) 详情 →
🔬 研究前沿
DeepMind 提出 AGI 认知度量框架,配套 20 万美元 Kaggle 竞赛。
"AGI 到底到了几成?"这个问题一直缺乏标准答案。DeepMind 现在给出了一个正式的认知框架来衡量进展,并用 20 万美元 Kaggle 竞赛来众包认知评估任务。如果这套框架被行业采纳,它可能成为衡量 AGI 进展的标准尺子。(625 likes | 89 RTs) 详情 →
RCT 实证:AI 家教真的有用 — 效果相当于多上 6-9 个月学:一项严格的随机对照实验表明,基于 GPT-4o 的个性化 AI 家教让高中生成绩提升了 0.15 个标准差。这是迄今最强的因果证据,证明 AI 辅导在规模化场景下确实有效。做教育科技的必读。(865 likes | 151 RTs) 详情 →
NVIDIA 发布首个医疗机器人数据集和基础模型:专门为医疗机器人设计的开放数据集和基础模型,连接 NVIDIA 的物理 AI 布局和真实医疗场景。做机器人研究的去看看。 详情 →
💡 行业洞察
Mistral × NVIDIA 联手:共建前沿开源模型。
Mistral 的模型架构 + NVIDIA 的算力栈,两家宣布战略合作共同开发前沿开源模型。NVIDIA 的"军火商"角色越来越明显 — 同时给多家 AI 实验室输送弹药。关注后续联合发布的模型。(3,708 likes | 351 RTs) 详情 →
Snowflake AI 沙箱被攻破,成功执行恶意代码:安全研究人员演示了 Snowflake AI 沙箱逃逸并执行恶意软件的完整链路。AI 沙箱隔离比想象中难得多 — 所有急着把 AI 塞进生产环境的企业,该回去审计一下自己的安全边界了。(131 likes | 30 RTs) 详情 →
Anthropic 发布 81,000 人 AI 使用调查:有史以来最大规模的 AI 用户定性研究 — 一周内收到 81,000 份回复。用户实际在用 AI 做什么 vs. 期望和担忧什么,数据量大到可以指导每个做 AI 产品的团队。(1,066 likes | 159 RTs) 详情 →
Google 和 Anthropic 同一周投资开源安全:Google 发布 AI 驱动的开源安全工具,Anthropic 向 Linux 基金会捐款支持 AI 时代的开源安全。同一周两大巨头同时出手,说明行业正在认真对待一个现实:AI 让代码库增长的速度远超人类审查能力。(774 likes | 69 RTs) 详情 →
🏗️ 值得一试
Holotron-12B:高吞吐开源计算机操作 Agent:一个 12B 参数的开源模型,专为计算机操作任务设计,强调高吞吐。当 computer use 正在成为 Agent 标配能力时,拥有开源替代方案很重要。做 Agent 的去测测。 详情 →
🎓 模型小课堂
模型蒸馏 vs. 架构变体:GPT-5.4 mini 和 nano 不是简单地"把大模型缩小" — 它们是通过蒸馏(Distillation)技术,用大模型的输出来训练小模型,同时针对特定任务(编码、计算机操作、子 Agent)做了优化。这就解释了为什么"mini"在某些跑分上能反超原版大模型,而成本只是零头。类比一下:大模型是全科医生,蒸馏出来的小模型是专科医生 — 在自己的领域反而更强。
⚡ 快讯
- Code with Claude 开发者大会:旧金山、伦敦、东京三城举办,全天 workshop + demo + 1:1 office hours,支持远程观看。(2,496 likes | 195 RTs) 链接
- Google 发布 AI 驱动的开源安全工具:针对代码安全的新工具集。 链接
- Hugging Face 开源生态报告 Spring 2026:模型上传、数据集增长、社区活跃度全景扫描。 链接
- Hacker News 全量归档上线:4700 万+ 条目、11.6GB Parquet 格式,每 5 分钟更新。拿去做 NLP 实验或趋势分析。(55 likes | 14 RTs) 链接
🎯 今日精选
Snowflake AI 沙箱逃逸不只是一个 bug — 它撕开了企业 AI 安全的遮羞布:安全研究人员证明 Snowflake 的 AI 沙箱可以被突破并执行恶意代码。这不是理论攻击,是实际演示。耐人寻味的是时间节点 — 同一周,Google 和 Anthropic 都在加码开源安全投资。行业巨头们显然早就知道问题有多严重。现实是:企业把 AI 部署到生产环境的速度,远超安全防护跟上的速度。每个在生产环境里跑 AI Agent 的团队,现在就该回去审计沙箱边界、权限隔离和逃逸路径。不是"是否会被攻破"的问题,是"什么时候"的问题。 详情 →
下期见 ✌️