Chris Olah 在梵蒂冈谈 AI 安全 — 行业首次
💡 行业洞察
Chris Olah 在梵蒂冈谈 AI 安全 — 行业首次
AI 实验室的联合创始人受邀在教皇通谕发布会上发言 — 这事以前没发生过。Anthropic 联合创始人 Chris Olah 今天出席了教皇利奥十四世通谕《Magnifica humanitas》的发布仪式,把 AI 对齐问题从技术圈子搬到了全球道德权威的讲台上。这意味着 AI 安全不再只是论文里的话题,而是文明级别的议题。Olah 的核心论点:对齐不是工程问题,是人类问题。(2,322 likes | 359 RTs) 详情 →
Anthropic 据报正以 9000 亿美元以上估值融资 300 亿美元+
如果属实,Anthropic 将成为全球最值钱的 AI 私企。9000 亿美元的估值说明一件事:投资人相信"安全优先"的路线不仅有道德感召力,还能赚钱 — Claude 的企业端增长是实打实的。等官方确认。(39 likes | 4 RTs) 详情 →
ClickUp 用 AI Agent 替换数百名员工 — 第一个公开这么干的 SaaS 公司。 这不是"AI 辅助提效"的公关话术,而是直接说"我们裁人了,换成了几千个 AI Agent"。ClickUp 的做法会被每家中型 SaaS 公司在 18 个月内复制 — 这是 Agent 替代人力从理论走向执行的标志性事件。 详情 →
教皇的 AI 通谕,其实不是在说 AI。 TechCrunch 的解读:通谕借 AI 谈的是更老的问题 — 权力集中、民主侵蚀、科技精英塑造世界。把这篇和 Chris Olah 的发言对照着看更有意思:教廷和实验室在用完全不同的框架描述同一个问题。 详情 →
🔬 研究前沿
DeepMind 发布 AlphaProof Nexus — 研究级数学推理变成了 Agent 工具
Google DeepMind 把定理证明能力包装成了 Agentic 框架。AlphaProof Nexus 不是又一个 demo — 它把之前证明 Erdős 猜想的能力产品化了,让研究级数学推理变成可调用的工具。对数学和形式化验证领域的研究者来说,这直接改变了工作流。(1,038 likes | 159 RTs) 详情 →
Anthropic 发布 Project Glasswing 首份进展报告:Anthropic 的前沿 AI 网络安全项目从"我们启动了"进入"我们发现了什么"阶段。这是第一次公开披露该安全项目的具体发现 — 做 AI 安全相关工作的值得通读。 详情 →
On-Policy Distillation 解析 — 当下最火的后训练技术:传统蒸馏(Distillation)是学生直接模仿老师的输出,On-Policy Distillation 让学生先自己生成答案,再由老师纠正。Niels Rogge 这个 thread 是目前最清晰的解释。MiniCPM5 能在 1B 参数里塞进多模态能力,靠的就是这个技术。(547 likes | 50 RTs) 详情 →
🧠 发布动态
HuggingFace 发布 LeRobot — 2500 美元造一台开源人形机器人
HuggingFace 在机器人领域复制了它在 NLP 领域的打法:完整的开源硬件 + 软件栈,价格压到爱好者级别。2500 美元一台人形机器人,全套 BOM 和代码公开。这不是玩具 — 这是让机器人研发民主化的基础设施。(690 likes | 107 RTs) 详情 →
6 人团队做的专用模型,比 OpenAI 和 Anthropic 快 4-8 倍:小团队、任务专用模型在速度上碾压通用大模型,50 万次下载说明开发者在用脚投票。"最强模型"不一定是"最好的模型" — 你的场景可能只需要一个又快又准的专家。(2,634 likes | 243 RTs) 详情 →
LongCat 开源 SOTA 数字人模型,MIT 协议:又一个 SOTA 级别的 Talking Avatar 模型以 MIT 协议开源。开源数字人生成赛道竞争白热化 — 做视频 Agent 或虚拟主播的开发者现在有好几个强选项了。(1,020 likes | 125 RTs) 详情 →
MiniCPM5 把多模态塞进了 1B 参数:OpenBMB 的 MiniCPM5-1B 在 HuggingFace 上热度飙升 — 1B 参数跑多模态,小到可以部署在手机和边缘设备上。On-Policy Distillation 功不可没。能力强的小模型越来越多,端侧部署的可能性在快速打开。(137 likes) 详情 →
🔧 开发者工具
Hermes Agent 接入 OpenHands 编排 — 多 Agent 混合工作流来了:Hermes 现在可以在同一个工作流里编排 OpenHands、Claude Code、Codex 等不同来源的编码 Agent。这是第一个让你通过可安装技能混用多供应商 Agent 的工具 — "哪个模型擅长什么就派什么"不再是理论。(194 likes | 11 RTs) 详情 →
Agent Swarms:一个 prompt 调度 Gemini、Opus 和 GPT:Master Agent 根据任务类型把子任务分配给最合适的模型 — 编码给 Opus,研究给 Gemini,测试给 GPT。"每个子任务用最佳模型"的模式正在从概念变成真实架构。(1,247 likes | 85 RTs) 详情 →
📝 技术实战
HuggingFace 发布 Agent 术语权威词汇表:Harness、Scaffold、Agent、Tool — 这些词你天天用,但团队里每个人的理解可能都不一样。HuggingFace 出了一份标准术语表,把这些概念掰清楚了。Agent 架构越来越复杂,术语不统一会导致真正的工程混乱 — 收藏并转发给团队。 详情 →
如何让沙箱里的编码 Agent 在你的浏览器里测试 UI:在远程 VM 沙箱里跑 Claude Code,同时通过端口转发在本地浏览器测试 UI 变更。这解决了大多数团队面临的"安全但不好用"问题 — 想全面沙箱化编码 Agent 的团队,这个工作流值得搭一遍。(57 likes | 6 RTs) 详情 →
🏗️ 值得一试
Louis Rossmann 开源了他的反 AI 套话写作规则:维修权倡导者 Louis Rossmann 把他的 Claude Code 配置开源了 — 一套 CLAUDE.md + Skills,专门逼模型用他自己的真实语气写作,远离千篇一律的 AI 腔。如果你也受够了 AI 生成的套话,fork 下来改成你自己的风格。(148 likes | 11 RTs) 详情 →
亚马逊 Bee AI 可穿戴设备:好奇又有点毛骨悚然:Amazon 入局 AI 可穿戴,评测体验和当初的 Humane Pin 一样矛盾 — 便利与隐私的张力。不同的是 Amazon 有渠道优势,这可能是决定胜负的变量。 详情 →
🎓 模型小课堂
On-Policy Distillation(在策略蒸馏):传统的知识蒸馏是"老师讲,学生抄笔记"。On-Policy Distillation 不一样 — 学生先自己做题,做完了老师再来批改纠正。这种"先动手再纠错"的学习方式比直接抄答案效果好得多,因为学生学到的是怎么纠正自己的错误,而不是怎么模仿别人。现在任务专用的小模型能在速度上比通用大模型快 4-8 倍,靠的就是这个技术 — MiniCPM5 能在 1B 参数里塞进多模态能力,On-Policy Distillation 是核心功臣。
⚡ 快讯
- 聊天机器人"人格"成新攻击面:黑客开始利用 Chatbot 的性格层和行为指令进行攻击,不再只是简单越狱。 链接
- 连谷歌都在摸着石头过河做 AI 安全:TechCrunch 说得好 — 如果谷歌都没有 playbook,你的团队肯定也没有。 链接
- Clawd 彩蛋:在 Claude Code iPhone 版里一直往下滑,吉祥物 Clawd 会跳出来蹦蹦跳跳。(152 likes) 链接
🎯 今日精选
ClickUp 用 AI Agent 换掉数百员工 — 这个剧本 18 个月内会被抄遍:之前说"AI 会取代工作"都是分析师预测和学术推演。ClickUp 是第一家公开把裁员定义为"Agent 替代战略"的主流 SaaS 公司 — 不是"AI 辅助提效让团队更精干"的公关话术,而是直白地说"我们用几千个 AI Agent 替换了几百个人"。这个定性很重要,因为它给了整个行业一个可参照的先例。ClickUp 的逻辑很简单:Agent 不需要 onboarding、不请假、不要期权,而且能 24 小时工作。当一家年收入数亿美元的公司这么做并且公开谈论时,每家中型 SaaS 公司的管理层都会问:"我们是不是也该这么干?"预计 18 个月内,这个 playbook 会被大规模复制。 详情 →
下期见 ✌️