GPT-5 来了 — OpenAI 新一代旗舰模型

🧠 发布动态

GPT-5 来了 — OpenAI 新一代旗舰模型。

OpenAI 2026 年最大的一次发布。GPT-5 全面刷新了推理、编码、多模态能力的上限，这是每个开发者都需要重新跑一遍 eval 的时刻。不管你现在用什么模型，今天开始你的基准线变了。详情 →

GPT-OSS：OpenAI 发布首个开源权重模型。

那个靠闭源模型起家的公司，今天开源了。GPT-OSS 直接杀入 Llama 和 Mistral 的地盘 — 这不是慈善，这是在 Llama 4 和 DeepSeek 定义开源标准之前先下手为强。权重可下载，安全框架同步公开。对国内开发者来说，这意味着又多了一个可以本地部署的 frontier 级别模型。详情 →

GPT Realtime：专为语音和流式交互打造的模型。

不是在 GPT-5 上加个语音接口 — 这是一个从底层为实时场景优化的独立模型。低延迟、流式输出、语音原生。做语音助手、实时翻译、直播交互的团队，你们的基础设施选项刚多了一个重量级选手。详情 →

GPT-5.1 同周发布 — 真正的故事是迭代速度。 GPT-5 刚发，5.1 就跟上了。OpenAI 的模型迭代周期已经压缩到"周"级别，这比模型本身的能力提升更值得关注 — 如果你的评估流程还是季度一次，你已经跟不上了。(详情见 GPT-5 发布) 详情 →

ChatGPT 图像生成大改版。 伴随 GPT-5 一起更新，图像生成质量和可控性全面升级。消费端 AI 的竞争越来越卷在多模态体验上 — 文字、图像、语音，全都要好。详情 →

NVIDIA Nemotron-Cascade：30B 参数，只激活 3B。 NVIDIA 的 MoE 架构新作，用 30B 的知识量跑出 3B 的推理成本，在多个基准上拿到 gold-tier 成绩。效率比惊人 — frontier 级质量，边缘设备级算力。成本敏感的部署场景值得立刻测试。(103 likes | 1.6K downloads) 详情 →

🔧 开发者工具

Claude Code Channels：从 Telegram 和 Discord 遥控编码会话。

基于 MCP 的 channel 机制，让你在手机上通过 Telegram 或 Discord 直接控制 Claude Code 会话 — 启动任务、查看进度、审批变更。25K 点赞说明需求有多旺盛：开发者想要随时随地掌控 Agent，不只是坐在电脑前。这把之前 Dispatch 的手机遥控能力扩展到了任何聊天平台。延伸阅读：Claude Code 远程会话：用手机启动编程任务 (24,996 likes | 2,279 RTs) 详情 →

Claude Code 云端定时任务上线。 给一个仓库、一段 prompt、一个 cron 表达式 — Claude 在云端自动执行。代码审查、依赖更新检查、日志监控，这些重复性工作现在可以完全交给后台。Claude Code 从"你叫它干活"变成了"它自己干活"。(5,151 likes | 368 RTs) 详情 →

Claude Code 桌面版：直接点选 DOM 元素。 不用再费劲描述"左边第三个按钮" — 直接在页面上点一下，Claude 就知道你要改哪个组件。前端迭代的摩擦又少了一层。(2,632 likes | 154 RTs) 详情 →

🔬 研究前沿

Frontier 模型编码跑分 85-95%，换个没见过的语言就崩了。 LeCun 转发的新研究：把同样的编码题用模型没训练过的语言重新出，frontier 模型直接垮掉。跑分高不代表真的会推理 — 如果你根据 2% 的 benchmark 差异选模型，你可能在测的是记忆力而不是能力。(2,070 likes | 273 RTs) 详情 →

V-JEPA 2.1：Meta 用 200 万小时视频训练，零标注。 没有标签、没有物理教科书、没有人工监督 — 模型自己从原始视频中学到了有意义的表征。这是 LeCun 的 JEPA 架构在视频理解上的实质性进展，自监督学习的信仰者有了新弹药。(1,070 likes | 129 RTs) 详情 →

GPT-OSS Safeguard：OpenAI 公开开源模型的安全框架。 不只是扔出权重就完事 — OpenAI 同步发布了 GPT-OSS 的安全评估方法、红队测试细节和部署建议。要用开源模型上生产的团队，这份文档是必读。详情 →

💡 行业洞察

Cursor 的新模型是 Kimi 微调版 — 开源赢了编码层。 HuggingFace CEO 确认，Cursor 最新模型底座是 Kimi（月之暗面）的微调。商业编码工具用开源模型做底座，这个趋势越来越明确 — 模型本身不是护城河，针对场景的微调和产品体验才是。国产模型在编码赛道的存在感又强了一分。(1,033 likes | 108 RTs) 详情 →

OpenAI 监控 99.9% 内部 AI 编码流量以检测对齐问题。 OpenAI 披露了迄今最具体的内部 AI 安全监控实践 — 几乎所有内部 AI 辅助编码的流量都被实时监控。这不只是安全声明，更是企业 AI 治理的参考模板。(700 likes | 74 RTs) 详情 →

每个认真做开发者生态的 AI 实验室都在买工具链。 Latent Space 连点成线：OpenAI 买了 Astral，Anthropic 买了 Bun，Google 收了 Antigravity 团队。模式很清楚 — AI 实验室不甘心只做模型层，要把从编辑器到包管理器的整条工具链都收入囊中。你选的工具链正在决定你被谁锁定。详情 →

📝 技术实战

用 GPT-5.4 构建更好前端的实战模式。 OpenAI DevRel 分享了一套实用方法：更紧的约束条件、视觉参考图、真实内容替代占位符。如果你在用 AI 写前端（也就是 vibe coding），这些技巧能让输出质量明显提升。延伸阅读：vibe coding 专题 (3,012 likes | 212 RTs) 详情 →

🏗️ 值得一试

OpenCode：开源 AI 编码 Agent 上线。 登顶 Hacker News 的新项目 — 在 Claude Code 和 Codex 定义品类的今天，开源替代方案让团队能完全掌控自己的 Agent 栈。想要自托管、想要定制、想要不被锁定的，去试试。延伸阅读：本地运行 AI 编程 Agent (857 likes | 387 RTs) 详情 →

LongCat-Flash-Prover：美团开源形式化推理模型。 国内大厂在形式化数学证明领域出手了 — 混合专家架构，专攻定理证明和形式化验证。形式化推理是 AI 最硬的基准之一，国产开源模型能在这个方向竞争，说明能力扩散的速度超出预期。(312 likes | 39 RTs) 详情 →

🎓 模型小课堂

Open Weights vs. Open Source — 别被"开源"两个字骗了。 GPT-OSS 号称"开源"，但开发者能拿它做什么，取决于具体开放了什么。开放权重（Open Weights）意味着你可以下载模型跑推理，可能可以微调；开源（Open Source）意味着训练代码、数据处理流程、许可证全部公开，你可以复现、修改、商用。大多数"开源模型"其实只是开放权重 — 你能用，但不一定能改、不一定能蒸馏、不一定能商业部署。看模型的时候，别只看标题，看许可证。

⚡ 快讯

$2K 预算独立开发者拿下 29 个 HuggingFace 排行榜模型：没有实验室背景，纯靠技巧和品味，证明竞争力模型训练的门槛已经崩塌。(11,248 likes | 1,031 RTs) 链接
一天内训练领域特定 Embedding 模型：NVIDIA + HuggingFace 出品的实战指南，RAG 检索质量不好的去看。延伸阅读：RAG 专题链接
身份驱动授权成为 AI Agent 安全的共识方案：不是全放开，也不是每步都人工审批 — 基于身份的细粒度权限才是正解。(206 likes | 13 RTs) 链接
Mamba-3 推进状态空间模型：Transformer 之外的另一条路，Together AI 的最新迭代在长上下文和效率上继续缩小差距。(137 likes | 20 RTs) 链接

🎯 今日精选

OpenAI 开源不是慷慨，是卡位。 GPT-OSS 的发布时机值得细品 — 在 Llama 4 和 DeepSeek 下一轮模型发布之前，OpenAI 抢先定义了"负责任的开源"标准。同步发布的 Safeguard 安全框架才是真正的棋 — OpenAI 赌的是：当开源模型能力趋同时，谁的安全框架被行业采纳，谁就掌握了话语权。对比 Meta 的"先发权重再说"策略，OpenAI 选择了"权重 + 安全规范"打包输出。对开发者来说，更多的 frontier 级开源选项当然是好事，但要看清每家的许可证细节 — "开源"这个词，每家的定义都不一样。延伸阅读：Anthropic vs OpenAI 开源策略对比详情 →

下期见 ✌️