GPT-5 来了 — OpenAI 最大模型全量推送

🧠 发布动态

GPT-5 来了 — OpenAI 最大模型全量推送。

等了这么久，终于到了。GPT-5 今天开始向所有用户滚动发布，包括免费用户。这是 OpenAI 迄今最强的旗舰模型，距上一代 GPT-4o 已经过去了相当长的时间。对开发者来说，API 端的能力提升意味着现有应用可以直接受益 — 尤其是复杂推理和多步骤任务场景。现在就去 ChatGPT 试试，或者切换 API 模型参数。(32,180 likes | 6,255 RTs) 详情 →

OpenAI 同日开源两款模型。

GPT-5 发布还不够，OpenAI 同一天放出两款开源权重模型。这是 OpenAI 历史上第一次在发旗舰闭源模型的同时推开源版本 — 策略很清晰：用开源抢生态位，用 API 赚钱。对于不想被 API 锁定的团队，这是一个值得认真评估的选项。(19,437 likes | 3,126 RTs) 详情 →

o3-pro 作为 GPT-5 的推理骨架上线。 如果你觉得 GPT-5 的推理能力提升明显，背后就是 o3-pro 在撑着。这个专门优化过的推理模型现在作为 GPT-5 的核心组件运行，复杂逻辑、数学证明、代码分析这些场景会有质的飞跃。(18,260 likes | 1,677 RTs) 详情 →

GLM-5.1 开源 — 中国最新的 Agent 编码模型。 智谱的 GLM-5.1 发布，主打 Agent 场景下的长程编码能力。相比 GLM-5.0 跑分大幅提升，核心卖点是能在数百轮迭代中持续改进代码质量而不退化 — 这正是现有编码模型的痛点。开源权重已上 Hugging Face。(420 likes | 37 RTs) 详情 →

Netflix 在 Hugging Face 发布首个公开模型。 没想到吧，流媒体巨头也来搞开源 AI 了。Netflix 悄悄在 Hugging Face 上放出了第一个公开模型。具体用途还待挖掘，但一个非 AI 原生公司开始开源模型，说明 AI 能力正在从"买服务"转向"自己练"。(3,775 likes | 305 RTs) 详情 →

🔧 开发者工具

Claude Computer Use 登陆 Windows。

Claude 的 Computer Use 功能现在在 Cowork 和 Claude Code Desktop 的 Windows 版本上可用了。这意味着 Windows 开发者终于可以让 Claude 直接操作桌面应用 — 填表单、点按钮、截屏分析，全自动。之前只有 Mac 能用，现在 Windows 用户不用眼馋了。延伸阅读：Claude Code Computer Use 入门 (11,729 likes | 1,088 RTs) 详情 →

narrator-ai-cli-skill：一句话生成电影解说视频。 这个 Agent Skill 文件可以装进 Claude Code、Windsurf 等 Agent 工具里，说一句"帮我做一个《肖申克的救赎》的解说视频"，AI 自动跑完脚本生成、配音合成（63 种音色）、模板套用、BGM 配置、成品输出全流程。内置 93 部电影素材库，18 种 API 错误码都有处理方案，工程化很扎实。做影视号的可以重点看看。(1,207 likes | 317 RTs) 详情 →

X 官方 CLI 可能比 MCP 更适合做 Twitter 自动化。 有开发者指出，与其费劲搭 MCP server 来操控 X，不如直接用 X 的官方 CLI 工具，把它技能化（Skill）装进 Claude Code 就够用了。省去了本地部署 MCP server 的折腾 — 有时候最简单的方案就是最好的。(410 likes | 30 RTs) 详情 →

📝 技术实战

Gemma 4 当视频导演：指挥 SAM 3 和 RF-DETR 处理原始视频。 一个很酷的工作流演示：Gemma 4 先看懂视频内容，然后自动调用 SAM 3 做分割、RF-DETR 做追踪。一个 AI 指挥另外两个 AI 干活 — 这就是多模型编排的实际应用。做视频分析、自动标注的团队可以参考这个架构。(2,189 likes | 129 RTs) 详情 →

OpenAI 的"暗工厂"：100 万行代码，10 亿 token/天，零人工编码。 Latent Space 深度采访了 OpenAI Frontier & Symphony 团队的 Ryan Lopopolo，揭秘了 OpenAI 内部如何实现完全无人工参与的代码生产 — 100 万行代码产出，每天消耗 10 亿 token，没有一行是人写的，也没有人类 review。真正的护城河不是模型本身，而是让你每天发 10 亿 token 而不需要工程师碰产出的 harness 基础设施。详情 →

🔬 研究前沿

GPT-5 Safe Completions：旗舰模型的安全架构。 OpenAI 发布了 GPT-5 的安全完成机制技术细节。随着模型能力越来越强，安全护栏的设计也越来越复杂 — 这份文档值得做 AI 安全的团队仔细研读。详情 →

GPT-OSS Safeguard 技术报告：开源模型的安全规范。 配合开源模型发布，OpenAI 同步放出了安全防护技术报告。开源模型的安全问题一直是争议焦点 — OpenAI 这次选择先发规范再发模型，算是正面回应了"开源 = 不安全"的质疑。详情 →

BrowseComp：网页浏览 AI Agent 的新基准测试。 OpenAI 发布了一个专门测试 AI Agent 网页浏览能力的 benchmark。随着 Agent 越来越多地需要在真实网页环境中操作，一个标准化的评测方式确实是刚需。做 Agent 的团队可以用这个来对比不同方案。详情 →

💡 行业洞察

Anthropic 年化营收突破 300 亿美元，不到半年翻三倍。

从 2025 年底的 90 亿到现在的 300 亿 — Anthropic 的增长速度比大多数人预期的都快。Claude 的企业需求在加速，这个数字说明 AI API 市场远没有到天花板。对比 OpenAI 的攻势，Anthropic 用营收数据证明了"不一定要最多用户，但要最高价值用户"的策略在跑通。(7,340 likes | 649 RTs) 详情 →

Anthropic 向网络安全防御者独家预览"Mythos"模型。 Mythos 被形容为"非常强大，应该让人感到敬畏"。Anthropic 选择不公开发布，而是先让网络安全防御者优先使用 — 这个发布策略本身就很说明问题：某些模型能力已经强到需要分阶段、分人群释放。(5,245 likes | 318 RTs) 详情 →

Gemma 4 成为最强小型多模态开源模型 — 优势断崖式。 Latent Space 的评测总结：Gemma 4 在每个维度上都大幅超越 Gemma 3，成为小模型领域的新标杆。对于需要在端侧或低成本场景部署多模态能力的团队，Gemma 4 现在是第一选择。详情 →

🏗️ 值得一试

GLM-5.1 已上 Hugging Face：智谱最新的开源 Agent 编码模型，权重已经可以直接下载。主打长程 Agent 编码场景，能持续数百轮迭代改进代码。(294 likes | 389 downloads) 详情 →

🎓 模型小课堂

开源权重 vs. 纯 API 发布策略（Open-Weight vs. API-Only）：今天的新闻完美展示了这两种策略的博弈。OpenAI 同时发布了 GPT-5（闭源 API）和两款开源权重模型；GLM-5.1 和 Netflix 都选择了开源。开源权重意味着你可以下载模型自己部署，不受 API 限价、限速、停服的影响，但你得自己搞推理基础设施。纯 API 模式省心省力，但你的业务命脉握在别人手里。选哪个取决于你的场景：对延迟和成本敏感的高频调用，自部署可能更划算；快速原型和中低频场景，API 几乎总是更好的起点。

⚡ 快讯

4o 图像生成上线：OpenAI 的 4o 模型现在支持原生图像生成。链接
OpenAI Microscope：神经网络内部可视化工具，帮你看清模型在"想"什么。链接
DALL·E 3 技术深度解析：OpenAI 发布 DALL·E 3 技术细节。链接
Gemma 4 下载量突破 200 万：发布不久就成为 Hugging Face 热门，增长势头凶猛。链接
GLM-5.1 上线 Hugging Face：智谱最新开源模型，直接下载可用。链接
Latent Space 周报：Good Friday 特别版：一周 AI 动态汇总。链接

🎯 今日精选

OpenAI "暗工厂"首次曝光 — 真正的护城河不是模型，是 Harness：Latent Space 对 OpenAI Frontier & Symphony 团队的深度访谈揭开了一个惊人的事实 — OpenAI 内部已经在运行一条完全无人工参与的代码生产线：100 万行代码产出，每天消耗 10 亿 token，零行人类编写的代码，零次人类 review。这不是演示，是生产环境。这意味着什么？当我们还在讨论"AI 能不能写好代码"的时候，OpenAI 已经在用 AI 大规模生产代码并直接上线了。真正的门槛不在于模型有多强 — GPT-5、Claude、Gemma 都在变强 — 而在于那套让你敢把 10 亿 token 的产出直接推上生产环境的 harness 基础设施：自动化测试、质量门禁、回滚机制、监控告警。这才是别人短期内抄不走的东西。详情 →

下期见 ✌️