Chris Olah 在梵蒂冈谈 AI 安全 — 行业首次

💡 行业洞察

Chris Olah 在梵蒂冈谈 AI 安全 — 行业首次

AI 实验室的联合创始人受邀在教皇通谕发布会上发言 — 这事以前没发生过。Anthropic 联合创始人 Chris Olah 今天出席了教皇利奥十四世通谕《Magnifica humanitas》的发布仪式，把 AI 对齐问题从技术圈子搬到了全球道德权威的讲台上。这意味着 AI 安全不再只是论文里的话题，而是文明级别的议题。Olah 的核心论点：对齐不是工程问题，是人类问题。(2,322 likes | 359 RTs) 详情 →

Anthropic 据报正以 9000 亿美元以上估值融资 300 亿美元+

如果属实，Anthropic 将成为全球最值钱的 AI 私企。9000 亿美元的估值说明一件事：投资人相信"安全优先"的路线不仅有道德感召力，还能赚钱 — Claude 的企业端增长是实打实的。等官方确认。(39 likes | 4 RTs) 详情 →

ClickUp 用 AI Agent 替换数百名员工 — 第一个公开这么干的 SaaS 公司。 这不是"AI 辅助提效"的公关话术，而是直接说"我们裁人了，换成了几千个 AI Agent"。ClickUp 的做法会被每家中型 SaaS 公司在 18 个月内复制 — 这是 Agent 替代人力从理论走向执行的标志性事件。详情 →

教皇的 AI 通谕，其实不是在说 AI。 TechCrunch 的解读：通谕借 AI 谈的是更老的问题 — 权力集中、民主侵蚀、科技精英塑造世界。把这篇和 Chris Olah 的发言对照着看更有意思：教廷和实验室在用完全不同的框架描述同一个问题。详情 →

🔬 研究前沿

DeepMind 发布 AlphaProof Nexus — 研究级数学推理变成了 Agent 工具

Google DeepMind 把定理证明能力包装成了 Agentic 框架。AlphaProof Nexus 不是又一个 demo — 它把之前证明 Erdős 猜想的能力产品化了，让研究级数学推理变成可调用的工具。对数学和形式化验证领域的研究者来说，这直接改变了工作流。(1,038 likes | 159 RTs) 详情 →

Anthropic 发布 Project Glasswing 首份进展报告：Anthropic 的前沿 AI 网络安全项目从"我们启动了"进入"我们发现了什么"阶段。这是第一次公开披露该安全项目的具体发现 — 做 AI 安全相关工作的值得通读。详情 →

On-Policy Distillation 解析 — 当下最火的后训练技术：传统蒸馏（Distillation）是学生直接模仿老师的输出，On-Policy Distillation 让学生先自己生成答案，再由老师纠正。Niels Rogge 这个 thread 是目前最清晰的解释。MiniCPM5 能在 1B 参数里塞进多模态能力，靠的就是这个技术。(547 likes | 50 RTs) 详情 →

🧠 发布动态

HuggingFace 发布 LeRobot — 2500 美元造一台开源人形机器人

HuggingFace 在机器人领域复制了它在 NLP 领域的打法：完整的开源硬件 + 软件栈，价格压到爱好者级别。2500 美元一台人形机器人，全套 BOM 和代码公开。这不是玩具 — 这是让机器人研发民主化的基础设施。(690 likes | 107 RTs) 详情 →

6 人团队做的专用模型，比 OpenAI 和 Anthropic 快 4-8 倍：小团队、任务专用模型在速度上碾压通用大模型，50 万次下载说明开发者在用脚投票。"最强模型"不一定是"最好的模型" — 你的场景可能只需要一个又快又准的专家。(2,634 likes | 243 RTs) 详情 →

LongCat 开源 SOTA 数字人模型，MIT 协议：又一个 SOTA 级别的 Talking Avatar 模型以 MIT 协议开源。开源数字人生成赛道竞争白热化 — 做视频 Agent 或虚拟主播的开发者现在有好几个强选项了。(1,020 likes | 125 RTs) 详情 →

MiniCPM5 把多模态塞进了 1B 参数：OpenBMB 的 MiniCPM5-1B 在 HuggingFace 上热度飙升 — 1B 参数跑多模态，小到可以部署在手机和边缘设备上。On-Policy Distillation 功不可没。能力强的小模型越来越多，端侧部署的可能性在快速打开。(137 likes) 详情 →

🔧 开发者工具

Hermes Agent 接入 OpenHands 编排 — 多 Agent 混合工作流来了：Hermes 现在可以在同一个工作流里编排 OpenHands、Claude Code、Codex 等不同来源的编码 Agent。这是第一个让你通过可安装技能混用多供应商 Agent 的工具 — "哪个模型擅长什么就派什么"不再是理论。(194 likes | 11 RTs) 详情 →

Agent Swarms：一个 prompt 调度 Gemini、Opus 和 GPT：Master Agent 根据任务类型把子任务分配给最合适的模型 — 编码给 Opus，研究给 Gemini，测试给 GPT。"每个子任务用最佳模型"的模式正在从概念变成真实架构。(1,247 likes | 85 RTs) 详情 →

📝 技术实战

HuggingFace 发布 Agent 术语权威词汇表：Harness、Scaffold、Agent、Tool — 这些词你天天用，但团队里每个人的理解可能都不一样。HuggingFace 出了一份标准术语表，把这些概念掰清楚了。Agent 架构越来越复杂，术语不统一会导致真正的工程混乱 — 收藏并转发给团队。详情 →

如何让沙箱里的编码 Agent 在你的浏览器里测试 UI：在远程 VM 沙箱里跑 Claude Code，同时通过端口转发在本地浏览器测试 UI 变更。这解决了大多数团队面临的"安全但不好用"问题 — 想全面沙箱化编码 Agent 的团队，这个工作流值得搭一遍。(57 likes | 6 RTs) 详情 →

🏗️ 值得一试

Louis Rossmann 开源了他的反 AI 套话写作规则：维修权倡导者 Louis Rossmann 把他的 Claude Code 配置开源了 — 一套 CLAUDE.md + Skills，专门逼模型用他自己的真实语气写作，远离千篇一律的 AI 腔。如果你也受够了 AI 生成的套话，fork 下来改成你自己的风格。(148 likes | 11 RTs) 详情 →

亚马逊 Bee AI 可穿戴设备：好奇又有点毛骨悚然：Amazon 入局 AI 可穿戴，评测体验和当初的 Humane Pin 一样矛盾 — 便利与隐私的张力。不同的是 Amazon 有渠道优势，这可能是决定胜负的变量。详情 →

🎓 模型小课堂

On-Policy Distillation（在策略蒸馏）：传统的知识蒸馏是"老师讲，学生抄笔记"。On-Policy Distillation 不一样 — 学生先自己做题，做完了老师再来批改纠正。这种"先动手再纠错"的学习方式比直接抄答案效果好得多，因为学生学到的是怎么纠正自己的错误，而不是怎么模仿别人。现在任务专用的小模型能在速度上比通用大模型快 4-8 倍，靠的就是这个技术 — MiniCPM5 能在 1B 参数里塞进多模态能力，On-Policy Distillation 是核心功臣。

⚡ 快讯

聊天机器人"人格"成新攻击面：黑客开始利用 Chatbot 的性格层和行为指令进行攻击，不再只是简单越狱。链接
连谷歌都在摸着石头过河做 AI 安全：TechCrunch 说得好 — 如果谷歌都没有 playbook，你的团队肯定也没有。链接
Clawd 彩蛋：在 Claude Code iPhone 版里一直往下滑，吉祥物 Clawd 会跳出来蹦蹦跳跳。(152 likes) 链接

🎯 今日精选

ClickUp 用 AI Agent 换掉数百员工 — 这个剧本 18 个月内会被抄遍：之前说"AI 会取代工作"都是分析师预测和学术推演。ClickUp 是第一家公开把裁员定义为"Agent 替代战略"的主流 SaaS 公司 — 不是"AI 辅助提效让团队更精干"的公关话术，而是直白地说"我们用几千个 AI Agent 替换了几百个人"。这个定性很重要，因为它给了整个行业一个可参照的先例。ClickUp 的逻辑很简单：Agent 不需要 onboarding、不请假、不要期权，而且能 24 小时工作。当一家年收入数亿美元的公司这么做并且公开谈论时，每家中型 SaaS 公司的管理层都会问："我们是不是也该这么干？"预计 18 个月内，这个 playbook 会被大规模复制。详情 →

下期见 ✌️