GPT 5.4 Mini 来了,"默认模型"要换人了
🧠 发布动态
GPT 5.4 Mini 来了,"默认模型"要换人了。
OpenAI 官方 DevRel 账号确认 GPT 5.4 Mini 上线。如果 Mini 延续 5.4 家族的推理能力提升,同时把成本打下来,大多数生产环境的默认模型选择将被重新洗牌。这是知识蒸馏(Knowledge Distillation)路线的又一次胜利 — 用大模型的输出训练小模型,小模型在多数任务上逼近大模型表现,成本却只是零头。等 API 定价和跑分出来,再决定要不要迁移。(171 likes | 6 RTs) 详情 →
Holo3:专为 Computer Use Agent 设计的视觉模型。
Hcompany 发布 Holo3-35B-A3B,一个混合专家(MoE)视觉语言模型,专攻 GUI 交互场景。目前 Computer Use 赛道基本是 Anthropic 一家独大,Holo3 提出了不同的技术路线来挑战这个格局。做 Agent 自动化的团队值得关注。(125 likes | 44 downloads) 详情 →
谷歌用 AI 卫星监测保护巴西雨林。 谷歌与巴西政府合作,部署 AI 驱动的卫星图像系统实时监控森林砍伐。这是目前最具规模的"AI for Good"国家级落地案例 — 不是 demo,是真的在用。 详情 →
Falcon Perception 发布。 阿联酋 TII 推出 Falcon Perception,聚焦视觉理解的多模态模型。Falcon 系列依然是非美非中 frontier 模型阵营里最值得跟踪的选手。 详情 →
🔧 开发者工具
Claude 原生入驻 Xcode 26。
Xcode 26 Beta 7 支持直接登录 Claude 账户 — 在 Apple IDE 里生成代码、写文档、自动化任务,不需要插件不需要折腾。这不是"加个 AI 补全"那么简单,而是苹果开发生态与 AI 最深度的一次整合。做 iOS/Mac/Vision Pro 开发的,今天就更新。(4,238 likes | 434 RTs) 详情 →
延伸阅读:想了解 Claude Code 在开发工具中的更多玩法?看看 Claude Code 不只是编码工具。
Claude Code 上线 NO_FLICKER 模式。 终端用 Claude Code 最大的槽点 — 闪屏 — 终于被解决了。Anthropic 推出实验性终端渲染器,彻底消除闪烁。更新 Claude Code 试试。(5,171 likes | 290 RTs) 详情 →
Google Analytics 官方 MCP Server 上线。 谷歌正式为 GA 推出 MCP 服务器,AI 可以直接查询分析数据。这是谷歌迄今为止最明确的信号:MCP 正在成为工具集成的标准协议。配合 Claude 或 Gemini 工作流,从手动看报表升级到 AI 驱动分析。(786 likes | 105 RTs) 详情 →
Claude Code GitHub 集成一条命令搞定。 在本地 Claude 会话里跑 /web-setup,就能把 Claude Code 和 claude.ai 网页端打通。团队协作的门槛又低了一截。(1,054 likes | 94 RTs) 详情 →
📝 技术实战
Claude 自主写出 FreeBSD 内核远程漏洞利用,拿到 root shell。
安全研究者记录了完整过程:Claude 从 CVE-2026-4747 的分析开始,自主完成漏洞利用链编写,最终拿到远程 root shell。从 CVE 分析到 working exploit,全程自主,没有人类手把手指导。这不是跑分,这是一个具体的时间戳 — AI 辅助攻击性安全从"理论上可行"变成了"已经发生"。每个安全团队都需要重新评估自己的威胁模型时间线。(243 likes | 96 RTs) 详情 →
🔬 研究前沿
Meta 神经腕带接口论文登上 Nature。 Meta 的 EMG 神经信号模型 — 通过手腕肌肉电信号翻译成计算机指令 — 正式在 Nature 发表。这是 Meta 下一代 AR/VR 输入方案的核心技术,模型已开源在 GitHub。脑机接口不再只是 Neuralink 的独角戏。(1,290 likes | 271 RTs) 详情 →
硬数据:AI 平均为美国工人节省 6% 的时间(每周 2.5 小时)。 Mollick 引用的最新研究显示,美国、英国、荷兰的数据趋势一致。早期非因果证据表明这正在转化为真实的生产力增长。这是第一批可信的宏观数据 — 你可以用来对标自己团队的 AI 提效效果。(331 likes | 51 RTs) 详情 →
Meta FAIR 开源最大 CO₂ 捕获材料数据集。 Meta FAIR 联合佐治亚理工和 cusp.ai 发布 Open Direct Air Capture 2025 数据集,为 AI 驱动的碳捕获材料筛选提供了严肃的 benchmark。做气候或材料科学的研究者有了新武器。(574 likes | 99 RTs) 详情 →
💡 行业洞察
OpenAI 以 8520 亿美元估值完成融资 — 史上最贵私企。
OpenAI 的 $852B 估值让它成为人类历史上估值最高的私人公司,而且是遥遥领先的那种。在开源模型越来越强的背景下,投资人依然选择重注押 OpenAI — 这说明市场赌的不是模型本身,而是分发渠道和企业客户关系。你的 AI 供应商策略需要把这个信号考虑进去。(270 likes | 254 RTs) 详情 →
Anthropic 意外泄露"Claude Mythos"博文。 一篇被迅速删除的官方博文曝光了 Claude Mythos — 据描述在编码、推理尤其是网络安全方面"碾压" Opus 4.6。意外泄露暗示一个重大模型升级即将到来。联系今天 Claude 写出内核漏洞利用的新闻,"网络安全方面碾压"这个描述变得格外有意味。(188 likes | 18 RTs) 详情 →
Axios 遭遇 npm 供应链攻击。 全球下载量最大的 npm 包之一 Axios 被注入恶意依赖。Simon Willison 做了详细分析。又一次提醒:依赖安全是最不性感但最要命的前线。赶紧检查你的 Axios 版本。 详情 →
🏗️ 值得一试
EmDash:TypeScript 写的 WordPress 精神续作。 MIT 开源、serverless 架构、内置 MCP 服务器、支持从现有 WordPress 站点一键导入。1900+ likes 说明市场确实在等一个现代化的 CMS 替代品。跑 npm create emdash@latest 就能试。(1,917 likes | 202 RTs) 详情 →
延伸阅读:对 MCP 服务器感兴趣?看看 如何创建一个 MCP Server。
🎓 模型小课堂
知识蒸馏(Knowledge Distillation):GPT 5.4 Mini 的发布又一次印证了"Mini 模型"浪潮背后的核心技术 — 知识蒸馏。简单说,就是让一个小模型去"学习"大模型的输出,而不是从头训练。大模型做老师,小模型做学生,学生不需要理解所有底层原理,只需要学会老师的答题方式。结果就是:Mini 模型在大多数任务上能达到大模型 90%+ 的表现,但推理成本可能只有十分之一。这就是为什么生产环境的"默认模型选择"一直在往下移 — 不是模型变弱了,而是小模型变得够强了。
⚡ 快讯
- Bonsai-8B:8B 参数 GGUF 格式模型在 HuggingFace 趋势榜走热,适合本地推理。(198 likes | 1.5K downloads) 链接
- Jim Fan:今天的机器人行业就像 2018 年的 NLP — GPT-1 刚发布,ChatGPT 时刻还要 2-3 年。(3,950 likes | 322 RTs) 链接
- Mollick:AI 实验室至今没能讲清楚他们在构建一个什么样的未来。(771 likes | 53 RTs) 链接
- Mini 莫拉维克悖论:Jim Fan 指出机器人能后空翻但不会炒菜 — 机器人领域内部也存在莫拉维克悖论。(2,589 likes | 600 RTs) 链接
- StepFun 3.5 Flash:在 OpenClaw 300 场对战中登顶性价比排行榜,中国模型悄悄赢下最重要的指标。(130 likes | 56 RTs) 链接
- OpenAI 墓地:Forbes 梳理了 OpenAI 所有砍掉的产品和流产的交易,$852B 估值下的另一面。(215 likes | 174 RTs) 链接
🎯 今日精选
AI 自主写出内核级漏洞利用 — 攻击性安全自动化不再是理论:Claude 从分析一个 FreeBSD CVE 开始,自主完成漏洞利用链编写,最终拿到远程 root shell。这不是在 CTF 比赛里解题,也不是跑分数据 — 这是一个 AI 在真实操作系统上,自主完成从漏洞分析到攻击代码编写到权限提升的完整链路。这个时间戳的意义在于:攻击性安全自动化从"理论上 AI 能做到"变成了"已经有人用 AI 做到了"。每个安全团队都需要重新计算自己的威胁模型时间线 — 不是往后推几年,而是往前拉几年。结合 Anthropic 泄露的 Claude Mythos 在网络安全上"碾压"Opus 4.6 的描述,这条赛道的加速度可能比我们想象的还要快。 详情 →
下期见 ✌️