NVIDIA 发布 Nemotron 3 Ultra — 5500 亿参数开源模型，专为长时 Agent 而生

🧠 发布动态

NVIDIA 发布 Nemotron 3 Ultra — 5500 亿参数开源模型，专为长时 Agent 而生。

NVIDIA 迄今最大的开源模型：550B 参数，MoE（混合专家）架构，专门为跑几个小时的 Agent 工作流设计。完全开放权重、合成数据和训练代码。对做 Agent 的团队来说，这是一个不依赖闭源 API、可以自己部署的重量级选择 — 而且免费。(2,208 likes | 291 RTs) 详情 →

ChatGPT 学会了「做梦」— OpenAI 发布主动记忆整合架构。

这不是普通的「记住上次聊了啥」。OpenAI 让 ChatGPT 在空闲时主动整理、归纳和巩固记忆 — 从被动存储变成了主动加工。类比一下：以前是把笔记扔进抽屉，现在是每晚自动整理归档。这对长期对话和个性化体验的影响可能比大多数模型升级都大。详情 →

GPT-Rosalind 加入 Agent 编码能力。 OpenAI 给生命科学专用模型加上了 GPT-5.5 级别的 Agent 编码和工具调用 — 药物发现、实验分析、计算生物学工作流现在有了专属的前沿模型。做 biotech 的团队，这个值得认真评估。(1,753 likes | 173 RTs) 详情 →

Ideogram 4 完全开源。 当前最强的文生图模型之一，权重全部开放 — 可以在自己的基础设施上微调和部署，不再依赖 API。对需要定制化图像生成的团队来说，这是目前最好的开源选择。(441 likes | 49 RTs) 详情 →

Google Gemma 4 12B 来了。 无编码器（encoder-free）的统一多模态模型，支持 Ollama、Transformers、llama.cpp 全生态。12B 参数量意味着可以在边缘设备上跑多模态推理 — GGUF 量化版已可下载。(8,272 likes | 1,099 RTs) 详情 →

🔬 研究前沿

Anthropic 公布递归自我改进硬数据 — Claude 正在加速自身的研发。

这是迄今为止任何前沿实验室关于递归自我改进（RSI）最透明的披露。Anthropic 用实打实的数据展示了 Claude 如何加速 AI 研发本身 — 不是「AI 辅助工程师」，而是「AI 加速 AI 研究」。这意味着飞轮已经开始转了，问题是：当前的安全框架跟得上这个加速度吗？(12,869 likes | 1,826 RTs) 详情 →

OpenAI 模型找到了 80 年前 Erdős 猜想的反例。 一个 OpenAI 模型独立发现了 Erdős 猜想的反例 — 这是 AI 在数学领域做出真正原创贡献的最清晰案例之一，不只是辅助计算，而是发现了人类数十年没找到的东西。(719 likes | 54 RTs) 详情 →

Anthropic 将 832 个恶意 AI 账户映射到 MITRE ATT&CK 框架。 最系统的公开数据集：AI 驱动的攻击在实际中长什么样。安全团队应该拿这份映射对照自己的威胁模型 — 这不是假想场景，是真实案例。(553 likes | 71 RTs) 详情 →

💡 行业洞察

Anthropic 合并代码中超过 80% 由 Claude 编写 — 工程师产出提升 8 倍。

来自 Anthropic 内部的硬数据：80% 以上合并代码由 Claude 编写，典型工程师每季度产出是 2024 年的 8 倍，大多数研究员已经好几个月没手写过代码了。这是目前公开的最具体的 AI 原生工程数据点。如果你还没认真衡量过团队的 AI 辅助代码比例，现在该开始了。(1,649 likes | 92 RTs) 详情 →

Mollick：AI 实验室用自己的工具形成了可见的递归循环。 Ethan Mollick 观察到：AI 实验室用自己的编码工具 → 工具变好 → 开发加速 → 模型更强 → 工具更好。这个飞轮效应正在变得肉眼可见。结合 Anthropic 的 RSI 数据，递归加速不再是推测。(345 likes | 17 RTs) 详情 →

Uber 将 AI 编码工具支出上限定为每人每月 $1,500。 第一个公开的大厂 AI 工具人均预算上限。这给所有 AI 工具供应商画了一条定价天花板，也给每个采购团队提供了一个谈判锚点。你的团队每月在 AI 工具上花多少？(452 likes | 42 RTs) 详情 →

📝 技术实战

Anthropic 数据团队用 Claude 自动化了 95% 的业务分析查询。 详细的实战博客：覆盖 eval 设计、消融实验和线上验证。核心思路是用 Claude 替代传统 BI 仪表板 — 不是加个聊天框，而是重新设计了数据分析的工作流。想干掉你的 BI 工具？这是目前最具体的参考案例。(2,099 likes | 75 RTs) 详情 →

🔧 开发者工具

OpenAI Responses API 现在内联返回内容审核分数。 安全信号直接跟生成结果一起返回 — 不需要单独调审核 API 了。可以在同一个请求流中根据安全分数做路由、日志或过滤。集成成本从「再调一次 API」降到了零。(274 likes | 15 RTs) 详情 →

Claude API 新增思考 token 用量明细。 现在可以在 output_tokens_details 里看到多少输出 token 是 extended thinking、多少是实际回复。用思考模式的团队终于能精确优化成本了 — 更新你的计费仪表板。详情 →

HuggingFace 重新设计 CLI 为 Agent 优先接口。 hf CLI 现在专门为 AI Agent 优化 — 上传模型、管理仓库、搜索 artifacts，全部可以被 Agent 程序化调用。如果你的工作流涉及 Agent 驱动的 ML 管线，这是基础设施层面的重要变化。详情 →

🏗️ 值得一试

Anthropic 开源 AI 漏洞发现框架。 把之前 MITRE 报告里的安全研究变成了实际可部署的工具 — 一个用 AI 发现代码安全漏洞的参考实现。Clone 下来对着你的代码库跑一遍，看看 AI 能找到什么你没注意到的。(221 likes | 74 RTs) 详情 →

Relic：能在 Windows 95、Wii 和初代 Xbox 上跑的编码 Agent。 用和 DOOM 一样的技术栈构建 — 装进一张软盘，只要 4MB 内存，能处理 pre-HTTPS 的系统。这不是噱头：它证明了 AI Agent 不需要顶配硬件也能有用，做遗留系统的朋友看过来。(192 likes | 16 RTs) 详情 →

🎓 模型小课堂

递归自我改进（Recursive Self-Improvement, RSI）：想象一个工程师写了一个能帮自己写代码的工具，然后用这个工具写出了更好的工具，再用更好的工具写出更更好的工具 — 这就是递归自我改进。以前这只是理论上的可能性，今天 Anthropic 的数据把它变成了可量化的现实：Claude 正在加速 AI 本身的研发。为什么这很重要？因为「AI 辅助工程师」和「AI 加速 AI 研究」之间的鸿沟，决定了当前的安全框架能不能跟得上能力增长的速度。

⚡ 快讯

Claude Code v2.1.163：新增版本管控和插件管理，企业可强制最低/最高版本。链接
NVIDIA Nemotron 3.5 Content Safety：可定制的多模态内容安全模型，企业可自定义安全阈值。链接
SynthTraces：HuggingFace CTO 推出合成编码 Agent 会话生成工具，用于训练和评估。(266 likes | 43 RTs) 链接
Ideogram 4 NF4 量化版：消费级 GPU（24GB+ VRAM）即可本地跑 SOTA 文生图。(156 likes | 398 downloads) 链接
Kotlin Compose Hot Reload 接入 MCP：AI Agent 可以实时与运行中的 Compose 应用交互，首个原生集成 MCP 的主流 IDE 平台。(57 likes) 链接

🎯 今日精选

Anthropic 公布 RSI 硬数据 — 透明是策略，但飞轮转速已经超出安全框架的设计预期：Anthropic 今天做了一件没有其他前沿实验室做过的事 — 公开发布了 Claude 加速自身研发的量化数据。这是一步精心计算的透明棋：在其他实验室还在模糊地谈论「AI 辅助研发」时，Anthropic 直接摆出了递归飞轮的转速。但数据本身揭示了一个不舒服的事实：「AI 辅助工程师」到「AI 加速 AI 研究」的跃迁正在发生，而且速度比行业现有的安全框架预设的要快。结合 Anthropic 内部 80% 代码由 Claude 编写的数据，飞轮效应已经非常具体。问题不再是递归自我改进会不会发生，而是安全对齐的时间线能不能跟上能力加速的时间线。(12,869 likes | 1,826 RTs) 详情 →

下期见 ✌️