GPT-5 来了 — OpenAI 新一代旗舰模型
🧠 发布动态
GPT-5 来了 — OpenAI 新一代旗舰模型。
OpenAI 2026 年最大的一次发布。GPT-5 全面刷新了推理、编码、多模态能力的上限,这是每个开发者都需要重新跑一遍 eval 的时刻。不管你现在用什么模型,今天开始你的基准线变了。 详情 →
GPT-OSS:OpenAI 发布首个开源权重模型。
那个靠闭源模型起家的公司,今天开源了。GPT-OSS 直接杀入 Llama 和 Mistral 的地盘 — 这不是慈善,这是在 Llama 4 和 DeepSeek 定义开源标准之前先下手为强。权重可下载,安全框架同步公开。对国内开发者来说,这意味着又多了一个可以本地部署的 frontier 级别模型。 详情 →
GPT Realtime:专为语音和流式交互打造的模型。
不是在 GPT-5 上加个语音接口 — 这是一个从底层为实时场景优化的独立模型。低延迟、流式输出、语音原生。做语音助手、实时翻译、直播交互的团队,你们的基础设施选项刚多了一个重量级选手。 详情 →
GPT-5.1 同周发布 — 真正的故事是迭代速度。 GPT-5 刚发,5.1 就跟上了。OpenAI 的模型迭代周期已经压缩到"周"级别,这比模型本身的能力提升更值得关注 — 如果你的评估流程还是季度一次,你已经跟不上了。(详情见 GPT-5 发布) 详情 →
ChatGPT 图像生成大改版。 伴随 GPT-5 一起更新,图像生成质量和可控性全面升级。消费端 AI 的竞争越来越卷在多模态体验上 — 文字、图像、语音,全都要好。 详情 →
NVIDIA Nemotron-Cascade:30B 参数,只激活 3B。 NVIDIA 的 MoE 架构新作,用 30B 的知识量跑出 3B 的推理成本,在多个基准上拿到 gold-tier 成绩。效率比惊人 — frontier 级质量,边缘设备级算力。成本敏感的部署场景值得立刻测试。(103 likes | 1.6K downloads) 详情 →
🔧 开发者工具
Claude Code Channels:从 Telegram 和 Discord 遥控编码会话。
基于 MCP 的 channel 机制,让你在手机上通过 Telegram 或 Discord 直接控制 Claude Code 会话 — 启动任务、查看进度、审批变更。25K 点赞说明需求有多旺盛:开发者想要随时随地掌控 Agent,不只是坐在电脑前。这把之前 Dispatch 的手机遥控能力扩展到了任何聊天平台。延伸阅读:Claude Code 远程会话:用手机启动编程任务 (24,996 likes | 2,279 RTs) 详情 →
Claude Code 云端定时任务上线。 给一个仓库、一段 prompt、一个 cron 表达式 — Claude 在云端自动执行。代码审查、依赖更新检查、日志监控,这些重复性工作现在可以完全交给后台。Claude Code 从"你叫它干活"变成了"它自己干活"。(5,151 likes | 368 RTs) 详情 →
Claude Code 桌面版:直接点选 DOM 元素。 不用再费劲描述"左边第三个按钮" — 直接在页面上点一下,Claude 就知道你要改哪个组件。前端迭代的摩擦又少了一层。(2,632 likes | 154 RTs) 详情 →
🔬 研究前沿
Frontier 模型编码跑分 85-95%,换个没见过的语言就崩了。 LeCun 转发的新研究:把同样的编码题用模型没训练过的语言重新出,frontier 模型直接垮掉。跑分高不代表真的会推理 — 如果你根据 2% 的 benchmark 差异选模型,你可能在测的是记忆力而不是能力。(2,070 likes | 273 RTs) 详情 →
V-JEPA 2.1:Meta 用 200 万小时视频训练,零标注。 没有标签、没有物理教科书、没有人工监督 — 模型自己从原始视频中学到了有意义的表征。这是 LeCun 的 JEPA 架构在视频理解上的实质性进展,自监督学习的信仰者有了新弹药。(1,070 likes | 129 RTs) 详情 →
GPT-OSS Safeguard:OpenAI 公开开源模型的安全框架。 不只是扔出权重就完事 — OpenAI 同步发布了 GPT-OSS 的安全评估方法、红队测试细节和部署建议。要用开源模型上生产的团队,这份文档是必读。 详情 →
💡 行业洞察
Cursor 的新模型是 Kimi 微调版 — 开源赢了编码层。 HuggingFace CEO 确认,Cursor 最新模型底座是 Kimi(月之暗面)的微调。商业编码工具用开源模型做底座,这个趋势越来越明确 — 模型本身不是护城河,针对场景的微调和产品体验才是。国产模型在编码赛道的存在感又强了一分。(1,033 likes | 108 RTs) 详情 →
OpenAI 监控 99.9% 内部 AI 编码流量以检测对齐问题。 OpenAI 披露了迄今最具体的内部 AI 安全监控实践 — 几乎所有内部 AI 辅助编码的流量都被实时监控。这不只是安全声明,更是企业 AI 治理的参考模板。(700 likes | 74 RTs) 详情 →
每个认真做开发者生态的 AI 实验室都在买工具链。 Latent Space 连点成线:OpenAI 买了 Astral,Anthropic 买了 Bun,Google 收了 Antigravity 团队。模式很清楚 — AI 实验室不甘心只做模型层,要把从编辑器到包管理器的整条工具链都收入囊中。你选的工具链正在决定你被谁锁定。 详情 →
📝 技术实战
用 GPT-5.4 构建更好前端的实战模式。 OpenAI DevRel 分享了一套实用方法:更紧的约束条件、视觉参考图、真实内容替代占位符。如果你在用 AI 写前端(也就是 vibe coding),这些技巧能让输出质量明显提升。延伸阅读:vibe coding 专题 (3,012 likes | 212 RTs) 详情 →
🏗️ 值得一试
OpenCode:开源 AI 编码 Agent 上线。 登顶 Hacker News 的新项目 — 在 Claude Code 和 Codex 定义品类的今天,开源替代方案让团队能完全掌控自己的 Agent 栈。想要自托管、想要定制、想要不被锁定的,去试试。延伸阅读:本地运行 AI 编程 Agent (857 likes | 387 RTs) 详情 →
LongCat-Flash-Prover:美团开源形式化推理模型。 国内大厂在形式化数学证明领域出手了 — 混合专家架构,专攻定理证明和形式化验证。形式化推理是 AI 最硬的基准之一,国产开源模型能在这个方向竞争,说明能力扩散的速度超出预期。(312 likes | 39 RTs) 详情 →
🎓 模型小课堂
Open Weights vs. Open Source — 别被"开源"两个字骗了。 GPT-OSS 号称"开源",但开发者能拿它做什么,取决于具体开放了什么。开放权重(Open Weights)意味着你可以下载模型跑推理,可能可以微调;开源(Open Source)意味着训练代码、数据处理流程、许可证全部公开,你可以复现、修改、商用。大多数"开源模型"其实只是开放权重 — 你能用,但不一定能改、不一定能蒸馏、不一定能商业部署。看模型的时候,别只看标题,看许可证。
⚡ 快讯
- $2K 预算独立开发者拿下 29 个 HuggingFace 排行榜模型:没有实验室背景,纯靠技巧和品味,证明竞争力模型训练的门槛已经崩塌。(11,248 likes | 1,031 RTs) 链接
- 一天内训练领域特定 Embedding 模型:NVIDIA + HuggingFace 出品的实战指南,RAG 检索质量不好的去看。延伸阅读:RAG 专题 链接
- 身份驱动授权成为 AI Agent 安全的共识方案:不是全放开,也不是每步都人工审批 — 基于身份的细粒度权限才是正解。(206 likes | 13 RTs) 链接
- Mamba-3 推进状态空间模型:Transformer 之外的另一条路,Together AI 的最新迭代在长上下文和效率上继续缩小差距。(137 likes | 20 RTs) 链接
🎯 今日精选
OpenAI 开源不是慷慨,是卡位。 GPT-OSS 的发布时机值得细品 — 在 Llama 4 和 DeepSeek 下一轮模型发布之前,OpenAI 抢先定义了"负责任的开源"标准。同步发布的 Safeguard 安全框架才是真正的棋 — OpenAI 赌的是:当开源模型能力趋同时,谁的安全框架被行业采纳,谁就掌握了话语权。对比 Meta 的"先发权重再说"策略,OpenAI 选择了"权重 + 安全规范"打包输出。对开发者来说,更多的 frontier 级开源选项当然是好事,但要看清每家的许可证细节 — "开源"这个词,每家的定义都不一样。延伸阅读:Anthropic vs OpenAI 开源策略对比 详情 →
下期见 ✌️