Anthropic 的 Agent 安全架构：他们到底怎么给 Claude 上锁的

📝 技术实战

Anthropic 的 Agent 安全架构：他们到底怎么给 Claude 上锁的。

Anthropic 工程团队首次公开了跨 Claude Code、Computer Use 和 MCP 的完整沙箱架构 — 这是 frontier 实验室第一次把 Agent 安全的底层设计摊开讲。核心思路：每个 Agent 运行在最小权限容器里，文件系统、网络、工具调用三层隔离。如果你在生产环境跑 Agent，这篇是必读 — 拿来审计你自己的沙箱方案。(970 likes | 117 RTs) 详情 →

非技术人员用 Claude Code 的基本套路：文件夹 + 脚本 + HTML。 听起来简单到不像话 — 把文件扔进文件夹，让 Claude Code 写脚本处理，输出 HTML。但 1200+ 点赞说明这个模式正在成为非工程师使用编程 Agent 的默认工作流。不需要懂代码，只需要懂得描述你要什么。(1,203 likes | 34 RTs) 详情 →

💡 行业洞察

Microsoft Copilot Cowork 能偷走你的文件。

Simon Willison 详细记录了 Microsoft Copilot Cowork 如何被利用来窃取本地文件 — 不是理论攻击，是实际演示。大家天天讨论 Agent 安全风险，这是目前最具体的案例。配合今天 Anthropic 的安全架构文章读，你会清楚看到"知道怎么做沙箱"和"真正做了沙箱"之间的鸿沟有多大。赶紧查查你的编程 Agent 能访问哪些文件。详情 →

Paul Graham：AI 代写的邮件让人感觉被骗了。 PG 说他从没读完过一封"人类署名但 AI 写的"邮件 — 2000+ 点赞说明这话戳中了很多人。当 AI 写作工具泛滥，真实感正在成为沟通中最稀缺的东西。你用 AI 写的那些外发邮件，收件人可能早就感觉到了。(2,012 likes | 68 RTs) 详情 →

Chris Olah 回应教皇的 AI 通谕。 Anthropic 联合创始人 Chris Olah 对教皇方济各二世的 AI 通谕《Magnifica humanitas》做出正式回应 — 这是 frontier 实验室高层第一次直接与梵蒂冈对话。他把 Anthropic 的机制可解释性（Mechanistic Interpretability）工作和教皇提出的"可理解的 AI"呼吁对接起来，角度独特。详情 →

Stack Overflow 的问答社区死了 — 但公司活得好好的。 AI 把 Stack Overflow 的流量打崩了，但公司转型做企业数据授权和 AI 训练数据 API。这是第一个完成 AI 时代转型的知识平台 — 其他平台（Reddit、Quora）都在看它的路径。论坛死了，数据资产活了。(137 likes | 198 RTs) 详情 →

Simon Willison 谈"那股压力"。 AI 开发者圈最勤奋的记录者说：什么工具都想试、什么都想跟上的压力已经不可持续了。当一个什么都试的人都说太快了，你该认真想想自己的节奏。详情 →

🔬 研究前沿

Mollick：我们对自主编程工具的生产力数据为零。

Ethan Mollick 指出一个惊人的事实 — 所有现有的 AI 编程生产力研究都早于 Claude Code / Codex 这一代自主 Agent（2025 年 12 月之后才出现）。我们正在押注数十亿美元的工具，却没有任何严格的生产力测量。这可能是当前 AI 研究中最重要的空白。你的团队在用 Agent 写代码？自己量一量前后差异吧。(674 likes | 44 RTs) 详情 →

MIT Tech Review：AI 抢工作的恐慌不符合数据。 尽管 Coinbase、Meta、Cisco 的裁员新闻刷屏，MIT Tech Review 发现大规模 AI 导致失业的实际证据少得可怜。叙事和数据之间的差距在持续扩大 — 这个差距对政策制定很重要。下次有人恐慌发帖说 AI 要取代所有人，把这篇转给他。详情 →

🔧 开发者工具

Claude Code 的 /goal：用另一个模型检查你是不是真的做完了。 干活的 Agent 不应该自己判断"我做完了" — /goal 加入一个独立模型作为完成度检查器。适合有明确完成条件的任务：测试通过、构建成功、待办清零。一个小功能，解决了 Agent 的一个真实失败模式。(205 likes | 11 RTs) 详情 →

Expo 公开 MCP Server，React Native 开发者直接用。 Expo 上线公开 MCP 服务器，AI 编程助手可以直接连接 Expo 文档、构建日志、TestFlight 崩溃报告和模拟器控制。MCP 从协议规范到日常开发工具的转化，这是一个实打实的案例。(259 likes | 17 RTs) 详情 →

GPT-5.5 + Codex 帮 Databricks 解析复杂企业文档。 OpenAI 展示 Codex + GPT-5.5 处理 Databricks 的客户文档解析 — 格式混乱、结构不一致的那种。不是最亮眼的 demo，但这恰恰是企业 Agent 落地的主战场：脏活累活，高价值。(287 likes | 15 RTs) 详情 →

🧠 发布动态

NVIDIA PiD：直接从模型 latent 做 4 倍超分辨率。 NVIDIA 发布 PiD — 在像素空间直接从 latent 做 4x 超分辨率，不需要单独的放大 pipeline。权重已上 HuggingFace，即插即用。如果你有图像生成工作流，这是一个实用的升级。(245 likes | 117 downloads) 详情 →

🏗️ 值得一试

六个非工程师用 Claude 做出的真实产品。

Claude 官方账号展示了六个非工程师项目 — 从图文并茂的家居维修手册到商业数据看板。7200+ 点赞说明 AI 编程工具的用户群正在远远超出开发者圈子。"为什么不试试？" 这个问题的答案越来越少。(7,244 likes | 242 RTs) 详情 →

ADHD：基于 Claude Agent SDK 的思维树 + 剪枝框架。 思维树（Tree-of-Thought）一直停留在论文里 — ADHD 把它做成了可直接安装的 Claude Agent SDK 技能。它会在不同认知框架下展开并行思维分支，打分，剪掉死路，深挖存活分支。适合复杂推理和跨学科 Agent 任务。(177 likes | 5 RTs) 详情 →

🎓 模型小课堂

Agent Sandboxing vs. Capability Isolation（沙箱 vs. 能力隔离）：今天 Anthropic 的安全架构文章和 Copilot 文件泄露事件，展示了同一个问题的两面。沙箱（Sandboxing）限制的是 Agent 能访问什么 — 比如只能看特定文件夹、不能联网。能力隔离（Capability Isolation）限制的是 Agent 能做什么 — 比如能读文件但不能发网络请求、能写代码但不能执行。大多数 Agent 框架只做了其中一种。当 Agent 默认就有文件系统和网络访问权限时，搞清楚这两者的区别至关重要。

⚡ 快讯

Codex CLI 0.134.0：新增历史搜索（带内容预览）、统一 --profile 参数、MCP OAuth 支持。(201 likes | 11 RTs) 链接
Microsoft Lens：微软在 HuggingFace 上开源文生图模型，首日 673 次下载。(101 likes | 673 downloads) 链接
DeepSWE：专门设计避免数据污染的编程 Agent 基准测试 — SWE-bench 的最大弱点终于有人认真对待了。(21 likes | 4 RTs) 链接
Rezonant Alter：对着你的产品说话描述改动，spec 直接发给编程 Agent — 截图标注的时代要过去了。(166 likes | 165 RTs) 链接
Anthropic TypeScript SDK v0.98.1：修复 skills.versions.create 上传时目录前缀丢失的 bug。链接

🎯 今日精选

Anthropic 公开安全架构的同一天，Copilot 演示了为什么你需要它：Anthropic 今天把 Claude 全产品线的 Agent 沙箱架构公开发表，同一天 Simon Willison 记录了 Microsoft Copilot Cowork 可以窃取用户文件。这不是巧合 — 这是目前 Agent 安全最清晰的正反对比。所有人都在说"Agent 需要安全"，但知道怎么做沙箱和真正把沙箱做好之间的差距，正在成为 Agent 时代最关键的安全挑战。当 Agent 默认就有文件系统和网络访问权限，沙箱不是可选项，是生死线。如果你在生产环境跑任何 Agent，今天就该读 Anthropic 的架构文章，然后审计你自己的安全边界。详情 →

下期见 ✌️