Claude Security 公测上线,代码安全从此内置
🧠 发布动态
Claude Security 公测上线,代码安全从此内置。
你的代码库现在可以直接让 Claude 扫描漏洞了 — 不是那种吐一堆误报让你自己排查的传统 SAST,而是扫描、验证、给补丁三步走。在 Claude Code 网页端直接用,Enterprise 客户已可开启。对安全团队来说,这相当于多了一个不会累的安全工程师;对开发者来说,写完代码顺手扫一遍的门槛降到了零。(13,378 likes | 1,100 RTs) 详情 →
GPT-5.5-Cyber 来了,但你可能用不上。
Sam Altman 宣布 GPT-5.5-Cyber 开始向关键基础设施防御者定向推送。注意措辞 — 不是"所有开发者",而是"关键网络防御者"。这是一个全新的模式:前沿模型按安全等级分批放出,政府协调准入。意味着 frontier 模型正在分化 — 有些能力你不是付费就能用的。(11,338 likes | 710 RTs) 详情 →
Gemini Embedding 2 正式上线。 Google 第一个原生多模态 Embedding 模型 — 文本、图片、视频统一编码到同一个向量空间。开发者已经在用它做视频分析和视觉搜索。如果你的 RAG 管线还只处理文本,是时候想想多模态检索了。(713 likes | 92 RTs) 详情 →
中国开源万亿参数模型 Ling-2。 万亿参数、开源、号称 Token 效率超过美国同级别的"高效"模型。开源 frontier 模型竞赛再次升级 — 规模不再是闭源模型的专利。想跑万亿参数的,准备好你的 GPU 集群。(1,005 likes | 93 RTs) 详情 →
Hugging Face 推出 Hugging Science。 专门为科学研究场景打造的 AI 模型和数据集聚合平台 — 把散落在各处的科研 AI 资源集中到一个入口。做生物信息、材料科学、气候模型的研究者,去看看你的领域有没有现成可用的模型。(1,633 likes | 327 RTs) 详情 →
📝 技术实战
Anthropic 企业级 Agent 部署手册:编排、护栏、生产化。
不是又一篇"AI Agent 是什么"的科普 — 这是 Anthropic 官方出的企业 Agent 实战指南,覆盖编排架构、安全护栏、生产环境上线的完整路径。如果你的团队正在把 Claude Agent 从 demo 推向生产,这份手册省你踩三个月的坑。重点关注多 Agent 协作的编排模式和失败回退策略。 详情 →
Prompt Caching 才是王道:Claude Code 团队的血泪经验。 Anthropic 工程团队直说了 — 在构建 Claude Code 的过程中,prompt caching 是成本和延迟优化的最大杠杆,没有之一。缓存命中率直接决定了你的 API 账单和用户体验。如果你在 Claude API 上跑多轮对话或 Agent 系统,现在就去审计你的缓存策略。延伸阅读:如何高效提示 Claude Code 详情 →
AI 开发的 98/2 法则。 Anthropic 的 Felix Rieseberg 观察到一个精准的规律:AI 把"基本能用"的阶段从 80% 压缩到了 98% — 几乎瞬间完成,但最后 2% 的打磨仍然要花真实时间。下次估工时别再按"AI 帮忙省一半"算了,实际情况是"粗活秒完,细活照旧"。(194 likes | 7 RTs) 详情 →
🔬 研究前沿
100 万次对话揭示了人们真正怎么用 Claude。 Anthropic 分析了 100 万次真实对话中的 sycophancy(讨好)模式 — 发现一个反直觉的结论:不是 AI 在误导用户,而是用户在主动寻求验证。这改变了问题的性质:修复该从模型权重入手,还是从产品设计入手?对做 AI 产品的人来说,这份数据比任何跑分都有价值。(1,180 likes | 106 RTs) 详情 →
DeepMind AI 协诊员:不是聊天机器人,是多模态临床助手。 Google DeepMind 发布了 AI 协诊员研究计划 — 探索多模态 Agent 如何辅助医疗工作者,处理影像、病历、检验数据的综合分析。这不是"问 AI 我头疼怎么办"的层级,而是严肃的临床决策支持研究。(677 likes | 110 RTs) 详情 →
🔧 开发者工具
Anthropic TypeScript SDK v0.92.0 更新 Managed Agents API。 TS SDK 迎来重要更新 — Managed Agents API 改进 + 环境变量 header 支持。在 Anthropic 平台上构建 Agent 系统的开发者,这是基础设施级别的更新,直接影响你的 Agent 管理和部署流程。升级前看一眼 breaking changes。 详情 →
💡 行业洞察
Karpathy:LLM 催生的是新品类,不是旧产品的加速器。
Karpathy 在 Sequoia Ascent 上抛出一个关键观点 — 别只想着"用 LLM 加速现有流程",真正的机会在全新的应用品类:即时生成的菜单、不用安装的工具、个人 AI 伴侣。这些东西在 LLM 之前根本不存在。如果你还在想"怎么用 AI 让我的产品快 20%",可能方向就错了。(2,173 likes | 260 RTs) 详情 →
Zig 项目禁止 AI 贡献代码,理由值得深思。 Simon Willison 解读了 Zig 社区的逻辑:PR review 的核心目的是培养贡献者,不只是保证代码质量。AI 提交的代码跳过了这个成长循环。对开源维护者来说,这不是"AI 代码质不质量"的问题,而是"开源社区到底在培养什么"的问题。(405 likes | 47 RTs) 详情 →
Zuckerberg:我们追踪员工电脑活动,因为你们比外包聪明。 Meta 内部消息 — Zuckerberg 解释用员工电脑活动数据训练 AI 的理由是员工比标注外包更聪明。员工同意了吗?内部数据用于 AI 训练的边界在哪?这个先例值得每个公司的技术管理者关注。 详情 →
同样的模型,完全不同的产品:Microsoft 和 OpenAI 的天然实验。 Mollick 指出一个绝佳的自然对照组 — Microsoft 和 OpenAI 用的是同一个模型,但做出了完全不同的产品。证明了一个道理:模型能力是必要条件但远不充分,产品设计和分发才是真正的护城河。(502 likes | 12 RTs) 详情 →
PyTorch Lightning 发现恶意依赖 Shai-Hulud。 安全警报 — Semgrep 在 PyTorch Lightning 这个广泛使用的 AI 训练库中发现了恶意依赖包。供应链攻击已经打到 ML 基础设施了。立刻检查你的 PyTorch Lightning 依赖树,尤其是最近新增的包。(308 likes | 99 RTs) 详情 →
🏗️ 值得一试
Pu.sh:400 行 Shell 写的完整编程 Agent。 反框架主义的极端实践 — 一个完整的编程 Agent harness,只用了 400 行 Shell 脚本。没有 LangChain,没有复杂的编排框架,就是 Shell。值得研究的不是它能不能替代 Claude Code,而是它砍掉了什么仍然能工作 — 这能帮你理解 Agent 系统的真正核心是什么。延伸阅读:Claude Code 到底特别在哪 (58 likes | 16 RTs) 详情 →
🎓 模型小课堂
Prompt Caching(提示缓存):每次你和 AI 对话,系统都要把之前的对话历史重新发给模型处理一遍 — 对话越长,处理成本越高。Prompt Caching 就是把这些重复的内容缓存起来,下次对话时直接复用,不用重新计算。Claude Code 团队透露,这是他们优化成本和延迟的最大杠杆。对于构建多轮对话或 Agent 系统的开发者来说,理解缓存命中的机制 — 什么时候命中、什么时候失效、怎么最大化命中率 — 现在是基本功,不是选修课。
⚡ 快讯
- Kepler:在合规要求最严的金融行业用 Claude 做可验证 AI,案例值得做受监管行业的团队研究。 链接
- Mollick 澄清 Mythos:不是专用网安模型,而是因为能力太强被限制的通用模型 — 安全讨论的方向要调整。(494 likes | 22 RTs) 链接
- IBM Granite 4.1 8B:登上 HuggingFace 热榜,企业级紧凑模型又多一个选择。(108 likes | 11.4K downloads) 链接
- LLM-jp-4:日本国立信息学研究所发布,8B 和 32B 版本在日语基准上超过 GPT-4o,非英语开源模型生态加速追赶。(239 likes | 63 RTs) 链接
- AWS 单季营收 376 亿美元:同比增长 28%,近四年最快 — AI 工作负载正在加速推动云计算增长。 链接
🎯 今日精选
100 万次对话背后的真相:用户在找认同,不是在被误导:当 Anthropic 分析了 100 万次真实对话中的 sycophancy 问题,结论出人意料 — 问题不是 AI 太讨好,而是用户在主动"货比三家"式地寻求验证。用户不满意一个回答就换个问法再问,直到得到想要的答案。这彻底改变了问题的性质:如果用户自己在 shopping for validation,那修复该在模型权重层面(让模型更"敢说不"),还是在产品设计层面(限制反复追问同一问题)?对做 AI 产品的人来说,这个发现比任何跑分都重要 — 你以为你在解决"AI 太听话"的问题,实际上你在解决"人类选择性倾听"的问题。(1,180 likes | 106 RTs) 详情 →
下期见 ✌️