GPT-5 来了 — OpenAI 最大模型全量推送
🧠 发布动态
GPT-5 来了 — OpenAI 最大模型全量推送。
等了这么久,终于到了。GPT-5 今天开始向所有用户滚动发布,包括免费用户。这是 OpenAI 迄今最强的旗舰模型,距上一代 GPT-4o 已经过去了相当长的时间。对开发者来说,API 端的能力提升意味着现有应用可以直接受益 — 尤其是复杂推理和多步骤任务场景。现在就去 ChatGPT 试试,或者切换 API 模型参数。(32,180 likes | 6,255 RTs) 详情 →
OpenAI 同日开源两款模型。
GPT-5 发布还不够,OpenAI 同一天放出两款开源权重模型。这是 OpenAI 历史上第一次在发旗舰闭源模型的同时推开源版本 — 策略很清晰:用开源抢生态位,用 API 赚钱。对于不想被 API 锁定的团队,这是一个值得认真评估的选项。(19,437 likes | 3,126 RTs) 详情 →
o3-pro 作为 GPT-5 的推理骨架上线。 如果你觉得 GPT-5 的推理能力提升明显,背后就是 o3-pro 在撑着。这个专门优化过的推理模型现在作为 GPT-5 的核心组件运行,复杂逻辑、数学证明、代码分析这些场景会有质的飞跃。(18,260 likes | 1,677 RTs) 详情 →
GLM-5.1 开源 — 中国最新的 Agent 编码模型。 智谱的 GLM-5.1 发布,主打 Agent 场景下的长程编码能力。相比 GLM-5.0 跑分大幅提升,核心卖点是能在数百轮迭代中持续改进代码质量而不退化 — 这正是现有编码模型的痛点。开源权重已上 Hugging Face。(420 likes | 37 RTs) 详情 →
Netflix 在 Hugging Face 发布首个公开模型。 没想到吧,流媒体巨头也来搞开源 AI 了。Netflix 悄悄在 Hugging Face 上放出了第一个公开模型。具体用途还待挖掘,但一个非 AI 原生公司开始开源模型,说明 AI 能力正在从"买服务"转向"自己练"。(3,775 likes | 305 RTs) 详情 →
🔧 开发者工具
Claude Computer Use 登陆 Windows。
Claude 的 Computer Use 功能现在在 Cowork 和 Claude Code Desktop 的 Windows 版本上可用了。这意味着 Windows 开发者终于可以让 Claude 直接操作桌面应用 — 填表单、点按钮、截屏分析,全自动。之前只有 Mac 能用,现在 Windows 用户不用眼馋了。延伸阅读:Claude Code Computer Use 入门 (11,729 likes | 1,088 RTs) 详情 →
narrator-ai-cli-skill:一句话生成电影解说视频。 这个 Agent Skill 文件可以装进 Claude Code、Windsurf 等 Agent 工具里,说一句"帮我做一个《肖申克的救赎》的解说视频",AI 自动跑完脚本生成、配音合成(63 种音色)、模板套用、BGM 配置、成品输出全流程。内置 93 部电影素材库,18 种 API 错误码都有处理方案,工程化很扎实。做影视号的可以重点看看。(1,207 likes | 317 RTs) 详情 →
X 官方 CLI 可能比 MCP 更适合做 Twitter 自动化。 有开发者指出,与其费劲搭 MCP server 来操控 X,不如直接用 X 的官方 CLI 工具,把它技能化(Skill)装进 Claude Code 就够用了。省去了本地部署 MCP server 的折腾 — 有时候最简单的方案就是最好的。(410 likes | 30 RTs) 详情 →
📝 技术实战
Gemma 4 当视频导演:指挥 SAM 3 和 RF-DETR 处理原始视频。 一个很酷的工作流演示:Gemma 4 先看懂视频内容,然后自动调用 SAM 3 做分割、RF-DETR 做追踪。一个 AI 指挥另外两个 AI 干活 — 这就是多模型编排的实际应用。做视频分析、自动标注的团队可以参考这个架构。(2,189 likes | 129 RTs) 详情 →
OpenAI 的"暗工厂":100 万行代码,10 亿 token/天,零人工编码。 Latent Space 深度采访了 OpenAI Frontier & Symphony 团队的 Ryan Lopopolo,揭秘了 OpenAI 内部如何实现完全无人工参与的代码生产 — 100 万行代码产出,每天消耗 10 亿 token,没有一行是人写的,也没有人类 review。真正的护城河不是模型本身,而是让你每天发 10 亿 token 而不需要工程师碰产出的 harness 基础设施。 详情 →
🔬 研究前沿
GPT-5 Safe Completions:旗舰模型的安全架构。 OpenAI 发布了 GPT-5 的安全完成机制技术细节。随着模型能力越来越强,安全护栏的设计也越来越复杂 — 这份文档值得做 AI 安全的团队仔细研读。 详情 →
GPT-OSS Safeguard 技术报告:开源模型的安全规范。 配合开源模型发布,OpenAI 同步放出了安全防护技术报告。开源模型的安全问题一直是争议焦点 — OpenAI 这次选择先发规范再发模型,算是正面回应了"开源 = 不安全"的质疑。 详情 →
BrowseComp:网页浏览 AI Agent 的新基准测试。 OpenAI 发布了一个专门测试 AI Agent 网页浏览能力的 benchmark。随着 Agent 越来越多地需要在真实网页环境中操作,一个标准化的评测方式确实是刚需。做 Agent 的团队可以用这个来对比不同方案。 详情 →
💡 行业洞察
Anthropic 年化营收突破 300 亿美元,不到半年翻三倍。
从 2025 年底的 90 亿到现在的 300 亿 — Anthropic 的增长速度比大多数人预期的都快。Claude 的企业需求在加速,这个数字说明 AI API 市场远没有到天花板。对比 OpenAI 的攻势,Anthropic 用营收数据证明了"不一定要最多用户,但要最高价值用户"的策略在跑通。(7,340 likes | 649 RTs) 详情 →
Anthropic 向网络安全防御者独家预览"Mythos"模型。 Mythos 被形容为"非常强大,应该让人感到敬畏"。Anthropic 选择不公开发布,而是先让网络安全防御者优先使用 — 这个发布策略本身就很说明问题:某些模型能力已经强到需要分阶段、分人群释放。(5,245 likes | 318 RTs) 详情 →
Gemma 4 成为最强小型多模态开源模型 — 优势断崖式。 Latent Space 的评测总结:Gemma 4 在每个维度上都大幅超越 Gemma 3,成为小模型领域的新标杆。对于需要在端侧或低成本场景部署多模态能力的团队,Gemma 4 现在是第一选择。 详情 →
🏗️ 值得一试
GLM-5.1 已上 Hugging Face:智谱最新的开源 Agent 编码模型,权重已经可以直接下载。主打长程 Agent 编码场景,能持续数百轮迭代改进代码。(294 likes | 389 downloads) 详情 →
🎓 模型小课堂
开源权重 vs. 纯 API 发布策略(Open-Weight vs. API-Only):今天的新闻完美展示了这两种策略的博弈。OpenAI 同时发布了 GPT-5(闭源 API)和两款开源权重模型;GLM-5.1 和 Netflix 都选择了开源。开源权重意味着你可以下载模型自己部署,不受 API 限价、限速、停服的影响,但你得自己搞推理基础设施。纯 API 模式省心省力,但你的业务命脉握在别人手里。选哪个取决于你的场景:对延迟和成本敏感的高频调用,自部署可能更划算;快速原型和中低频场景,API 几乎总是更好的起点。
⚡ 快讯
- 4o 图像生成上线:OpenAI 的 4o 模型现在支持原生图像生成。 链接
- OpenAI Microscope:神经网络内部可视化工具,帮你看清模型在"想"什么。 链接
- DALL·E 3 技术深度解析:OpenAI 发布 DALL·E 3 技术细节。 链接
- Gemma 4 下载量突破 200 万:发布不久就成为 Hugging Face 热门,增长势头凶猛。 链接
- GLM-5.1 上线 Hugging Face:智谱最新开源模型,直接下载可用。 链接
- Latent Space 周报:Good Friday 特别版:一周 AI 动态汇总。 链接
🎯 今日精选
OpenAI "暗工厂"首次曝光 — 真正的护城河不是模型,是 Harness:Latent Space 对 OpenAI Frontier & Symphony 团队的深度访谈揭开了一个惊人的事实 — OpenAI 内部已经在运行一条完全无人工参与的代码生产线:100 万行代码产出,每天消耗 10 亿 token,零行人类编写的代码,零次人类 review。这不是演示,是生产环境。这意味着什么?当我们还在讨论"AI 能不能写好代码"的时候,OpenAI 已经在用 AI 大规模生产代码并直接上线了。真正的门槛不在于模型有多强 — GPT-5、Claude、Gemma 都在变强 — 而在于那套让你敢把 10 亿 token 的产出直接推上生产环境的 harness 基础设施:自动化测试、质量门禁、回滚机制、监控告警。这才是别人短期内抄不走的东西。 详情 →
下期见 ✌️