Claude Security 公测上线，代码安全从此内置

🧠 发布动态

Claude Security 公测上线，代码安全从此内置。

你的代码库现在可以直接让 Claude 扫描漏洞了 — 不是那种吐一堆误报让你自己排查的传统 SAST，而是扫描、验证、给补丁三步走。在 Claude Code 网页端直接用，Enterprise 客户已可开启。对安全团队来说，这相当于多了一个不会累的安全工程师；对开发者来说，写完代码顺手扫一遍的门槛降到了零。(13,378 likes | 1,100 RTs) 详情 →

GPT-5.5-Cyber 来了，但你可能用不上。

Sam Altman 宣布 GPT-5.5-Cyber 开始向关键基础设施防御者定向推送。注意措辞 — 不是"所有开发者"，而是"关键网络防御者"。这是一个全新的模式：前沿模型按安全等级分批放出，政府协调准入。意味着 frontier 模型正在分化 — 有些能力你不是付费就能用的。(11,338 likes | 710 RTs) 详情 →

Gemini Embedding 2 正式上线。 Google 第一个原生多模态 Embedding 模型 — 文本、图片、视频统一编码到同一个向量空间。开发者已经在用它做视频分析和视觉搜索。如果你的 RAG 管线还只处理文本，是时候想想多模态检索了。(713 likes | 92 RTs) 详情 →

中国开源万亿参数模型 Ling-2。 万亿参数、开源、号称 Token 效率超过美国同级别的"高效"模型。开源 frontier 模型竞赛再次升级 — 规模不再是闭源模型的专利。想跑万亿参数的，准备好你的 GPU 集群。(1,005 likes | 93 RTs) 详情 →

Hugging Face 推出 Hugging Science。 专门为科学研究场景打造的 AI 模型和数据集聚合平台 — 把散落在各处的科研 AI 资源集中到一个入口。做生物信息、材料科学、气候模型的研究者，去看看你的领域有没有现成可用的模型。(1,633 likes | 327 RTs) 详情 →

📝 技术实战

Anthropic 企业级 Agent 部署手册：编排、护栏、生产化。

不是又一篇"AI Agent 是什么"的科普 — 这是 Anthropic 官方出的企业 Agent 实战指南，覆盖编排架构、安全护栏、生产环境上线的完整路径。如果你的团队正在把 Claude Agent 从 demo 推向生产，这份手册省你踩三个月的坑。重点关注多 Agent 协作的编排模式和失败回退策略。详情 →

Prompt Caching 才是王道：Claude Code 团队的血泪经验。 Anthropic 工程团队直说了 — 在构建 Claude Code 的过程中，prompt caching 是成本和延迟优化的最大杠杆，没有之一。缓存命中率直接决定了你的 API 账单和用户体验。如果你在 Claude API 上跑多轮对话或 Agent 系统，现在就去审计你的缓存策略。延伸阅读：如何高效提示 Claude Code 详情 →

AI 开发的 98/2 法则。 Anthropic 的 Felix Rieseberg 观察到一个精准的规律：AI 把"基本能用"的阶段从 80% 压缩到了 98% — 几乎瞬间完成，但最后 2% 的打磨仍然要花真实时间。下次估工时别再按"AI 帮忙省一半"算了，实际情况是"粗活秒完，细活照旧"。(194 likes | 7 RTs) 详情 →

🔬 研究前沿

100 万次对话揭示了人们真正怎么用 Claude。 Anthropic 分析了 100 万次真实对话中的 sycophancy（讨好）模式 — 发现一个反直觉的结论：不是 AI 在误导用户，而是用户在主动寻求验证。这改变了问题的性质：修复该从模型权重入手，还是从产品设计入手？对做 AI 产品的人来说，这份数据比任何跑分都有价值。(1,180 likes | 106 RTs) 详情 →

DeepMind AI 协诊员：不是聊天机器人，是多模态临床助手。 Google DeepMind 发布了 AI 协诊员研究计划 — 探索多模态 Agent 如何辅助医疗工作者，处理影像、病历、检验数据的综合分析。这不是"问 AI 我头疼怎么办"的层级，而是严肃的临床决策支持研究。(677 likes | 110 RTs) 详情 →

🔧 开发者工具

Anthropic TypeScript SDK v0.92.0 更新 Managed Agents API。 TS SDK 迎来重要更新 — Managed Agents API 改进 + 环境变量 header 支持。在 Anthropic 平台上构建 Agent 系统的开发者，这是基础设施级别的更新，直接影响你的 Agent 管理和部署流程。升级前看一眼 breaking changes。详情 →

💡 行业洞察

Karpathy：LLM 催生的是新品类，不是旧产品的加速器。

Karpathy 在 Sequoia Ascent 上抛出一个关键观点 — 别只想着"用 LLM 加速现有流程"，真正的机会在全新的应用品类：即时生成的菜单、不用安装的工具、个人 AI 伴侣。这些东西在 LLM 之前根本不存在。如果你还在想"怎么用 AI 让我的产品快 20%"，可能方向就错了。(2,173 likes | 260 RTs) 详情 →

Zig 项目禁止 AI 贡献代码，理由值得深思。 Simon Willison 解读了 Zig 社区的逻辑：PR review 的核心目的是培养贡献者，不只是保证代码质量。AI 提交的代码跳过了这个成长循环。对开源维护者来说，这不是"AI 代码质不质量"的问题，而是"开源社区到底在培养什么"的问题。(405 likes | 47 RTs) 详情 →

Zuckerberg：我们追踪员工电脑活动，因为你们比外包聪明。 Meta 内部消息 — Zuckerberg 解释用员工电脑活动数据训练 AI 的理由是员工比标注外包更聪明。员工同意了吗？内部数据用于 AI 训练的边界在哪？这个先例值得每个公司的技术管理者关注。详情 →

同样的模型，完全不同的产品：Microsoft 和 OpenAI 的天然实验。 Mollick 指出一个绝佳的自然对照组 — Microsoft 和 OpenAI 用的是同一个模型，但做出了完全不同的产品。证明了一个道理：模型能力是必要条件但远不充分，产品设计和分发才是真正的护城河。(502 likes | 12 RTs) 详情 →

PyTorch Lightning 发现恶意依赖 Shai-Hulud。 安全警报 — Semgrep 在 PyTorch Lightning 这个广泛使用的 AI 训练库中发现了恶意依赖包。供应链攻击已经打到 ML 基础设施了。立刻检查你的 PyTorch Lightning 依赖树，尤其是最近新增的包。(308 likes | 99 RTs) 详情 →

🏗️ 值得一试

Pu.sh：400 行 Shell 写的完整编程 Agent。 反框架主义的极端实践 — 一个完整的编程 Agent harness，只用了 400 行 Shell 脚本。没有 LangChain，没有复杂的编排框架，就是 Shell。值得研究的不是它能不能替代 Claude Code，而是它砍掉了什么仍然能工作 — 这能帮你理解 Agent 系统的真正核心是什么。延伸阅读：Claude Code 到底特别在哪 (58 likes | 16 RTs) 详情 →

🎓 模型小课堂

Prompt Caching（提示缓存）：每次你和 AI 对话，系统都要把之前的对话历史重新发给模型处理一遍 — 对话越长，处理成本越高。Prompt Caching 就是把这些重复的内容缓存起来，下次对话时直接复用，不用重新计算。Claude Code 团队透露，这是他们优化成本和延迟的最大杠杆。对于构建多轮对话或 Agent 系统的开发者来说，理解缓存命中的机制 — 什么时候命中、什么时候失效、怎么最大化命中率 — 现在是基本功，不是选修课。

⚡ 快讯

Kepler：在合规要求最严的金融行业用 Claude 做可验证 AI，案例值得做受监管行业的团队研究。链接
Mollick 澄清 Mythos：不是专用网安模型，而是因为能力太强被限制的通用模型 — 安全讨论的方向要调整。(494 likes | 22 RTs) 链接
IBM Granite 4.1 8B：登上 HuggingFace 热榜，企业级紧凑模型又多一个选择。(108 likes | 11.4K downloads) 链接
LLM-jp-4：日本国立信息学研究所发布，8B 和 32B 版本在日语基准上超过 GPT-4o，非英语开源模型生态加速追赶。(239 likes | 63 RTs) 链接
AWS 单季营收 376 亿美元：同比增长 28%，近四年最快 — AI 工作负载正在加速推动云计算增长。链接

🎯 今日精选

100 万次对话背后的真相：用户在找认同，不是在被误导：当 Anthropic 分析了 100 万次真实对话中的 sycophancy 问题，结论出人意料 — 问题不是 AI 太讨好，而是用户在主动"货比三家"式地寻求验证。用户不满意一个回答就换个问法再问，直到得到想要的答案。这彻底改变了问题的性质：如果用户自己在 shopping for validation，那修复该在模型权重层面（让模型更"敢说不"），还是在产品设计层面（限制反复追问同一问题）？对做 AI 产品的人来说，这个发现比任何跑分都重要 — 你以为你在解决"AI 太听话"的问题，实际上你在解决"人类选择性倾听"的问题。(1,180 likes | 106 RTs) 详情 →

下期见 ✌️