Claude 拿到了每台苹果设备的入场券

🧠 发布动态

Claude 拿到了每台苹果设备的入场券。

Anthropic 把 Claude 直接集成进了 Apple 的 Foundation Models 框架 — 这不是"Siri 接了个 API"，而是 iOS/macOS 开发者现在有了一条官方路径，在自己的 App 里调用 Claude 能力。WWDC 紧接着宣布，时机拿捏到位。对开发者来说，这意味着你在 Swift 里写几行代码就能让 App 具备 Claude 级别的推理能力，分发渠道直接是 App Store。苹果生态的 AI 应用要爆发了。详情 →

Apple 亮出新 AI 架构：Gemini 做底座，Claude 进框架，多供应商才是正解。

苹果在 WWDC 2026 公布的 AI 架构以 Google Gemini 为核心驱动 — 同时把 Claude 纳入 Foundation Models 框架。这不是二选一，而是苹果从第一天就设计了多供应商架构。对开发者意味着灵活性：底层能力靠 Gemini，应用层集成可以选 Claude，苹果自己不押注单一模型。Frontier model 的竞争格局从"谁赢"变成了"谁被选进平台"。(307 likes | 291 RTs) 详情 →

Qwen3.5 发布量化检查点 — 从设计阶段就和推理工程师共建。 不是训完再压缩的事后补救，而是从一开始就针对高效部署优化。跟 Gemma 4 的 QAT 思路一脉相承：模型不只追求跑分峰值，还要能高效跑起来。用 Qwen 的赶紧跑个对比。(235 likes | 37 RTs) 详情 →

JetBrains 掏出了自己的编码模型 Mellum2。 强编码 + 通用语言能力，关键是低延迟 — 这是给 IDE 场景量身定做的。做 IntelliJ 和 PyCharm 的人比谁都懂开发者在 IDE 里需要什么样的响应速度。编码模型赛道又多了一个有产品感的玩家。(214 likes | 19 RTs) 详情 →

🔧 开发者工具

Figma MCP Server 登陆 Xcode — 设计到代码的工作流成了苹果一等公民：WWDC 上 Figma 宣布其 MCP Server 正式支持 Xcode。设计稿通过 MCP 协议直接喂给编码 Agent，"看着设计稿写代码"这件事从 hack 变成了标准工作流。配合昨天 Jane Street 用 Claude 读 Figma 的发现，设计和代码的边界在加速消融。(187 likes | 12 RTs) 详情 →

Anthropic 发布 Claude Connector 可观测性指南：你的 Agent 在 MCP Server 和工具调用之间跑了一圈出了问题，怎么 debug？Anthropic 给出了官方的 instrumentation 方案。生产环境跑 Agent 的团队，这是刚需文档。详情 →

Claude Code v2.1.169：Safe Mode、/cd、技能开关：新增 --safe-mode 一键禁用所有自定义配置排查问题，/cd 切目录不再丢缓存，还能关闭内置 Skill。Power user 必更新。详情 →

📝 技术实战

让 Opus 连续自主跑几天的五个实战经验。

Anthropic 工程师 Boris Cherny 分享了长时间自主运行 Opus 的 battle-tested 模式：auto mode 全自动、dynamic workflows 动态编排、/goal 设定目标、/loop 持续循环。独立跑分已经确认 Opus 是长时间自主任务的最强模型，这些技巧直接就能用 — 下次碰到大任务，试试 auto mode + /loop 的组合。(3,083 likes | 236 RTs) 详情 →

🔬 研究前沿

METR 的 FrontierCode 揭了 SWE-Bench 的老底：一半以上的"解法"过不了 Code Review。 METR 评估发现，SWE-Bench 上超过 50% 的解决方案在真实 Code Review 中会被打回。FrontierCode 提供 1000+ 小时的维护者验证任务和 3000+ 条代码质量评分标准 — 一个诚实得多的 benchmark。如果你还在根据 SWE-Bench 排行榜选模型，该换个参考系了。(345 likes | 32 RTs) 详情 →

AI 写代码飞快，做生物实验却磕磕绊绊 — 为什么？ Anthropic 科学博客解释了：为人类工作流设计的生物数据库对程序化 Agent 极不友好。这篇分析提供了一个框架，帮你判断 AI 在哪些领域能快速自动化、哪些领域还差得远。想做 AI + 科研的，必读。(1,783 likes | 221 RTs) 详情 →

VLA-JEPA 登陆 LeRobot — 从视频学动作，不只是学感知。 Meta 的 LeRobot 框架新增 VLA-JEPA，核心突破是从视频理解中学习"该做什么动作"，而不只是"看到了什么"。这和 Jitendra Malik 的观点一致：机器人的瓶颈是规划，不是感知。LeCun 亲自推。(1,142 likes | 157 RTs) 详情 →

沃顿商学院算了一笔账：AI 必须带来 2.7 倍生产力提升，否则科技公司估值撑不住。 这篇论文给了管理层一个具体数字 — 如果你的 AI 投资达不到 2.7 倍的生产力回报，当前的估值水平就是泡沫。对决策者来说，这是一个可量化的投资基准。(830 likes | 176 RTs) 详情 →

💡 行业洞察

OpenAI 向 SEC 递交 S-1：3000 亿美元估值的 AI 实验室要上市了。

AI 行业最大的公司里程碑 — OpenAI 正式启动 IPO 程序。这不只是一次融资，它将重塑 AI 实验室的资金来源和治理结构。从非营利到营利到上市公司，OpenAI 的转型比任何技术突破都更能说明这个行业走到了哪一步。公开招股书一出，所有竞争对手的战略都得重新评估。(222 likes | 134 RTs) 详情 →

Sam Altman 公开发布 OpenAI 战略路线图。 3,714 likes — 这一轮所有 AI 实验室 CEO 里 engagement 最高的战略帖。配合 S-1 递交的时间点，这篇路线图既是给投资者看的，也是给行业画的路标。(3,714 likes | 390 RTs) 详情 →

Claude Code 一周年：Auto Mode 赢了，手机写代码成了现实。 Anthropic 的 Boris Cherny 回顾 Claude Code GA 一年来的演变 — Plan Mode 为什么让位给了 Auto Mode、Routines 如何提前抓 bug、以及意想不到的趋势：越来越多人在手机上写代码。想了解这个产品的方向，这篇是窗口。(1,340 likes | 66 RTs) 详情 →

微软 VP 用 Claude Workflows 跑了整个代码库，然后公开晒了结果。 微软副总裁 Mikhail Parakhin 亲测 Claude Workflows 处理完整代码库，效果好到他愿意公开分享。一位微软高管给竞争对手的产品站台，这个信号值千金。(446 likes | 5 RTs) 详情 →

"AI 在减速"论文发在各大实验室疯狂发货的同一周。 高 engagement 的逆向观点 — 论证 AI 进步正在放缓。有趣的是发布时机：OpenAI 递交 S-1、苹果接入多个 frontier 模型、各家新模型密集发布……这个反差本身就值得批判性阅读。(351 likes | 374 RTs) 详情 →

🏗️ 值得一试

OpenEnv：训练"会用工具"的 Agent 的社区标准框架。 HuggingFace 力推的 agentic RL 环境标准 — 统一了 Agent 与真实工具和 API 交互的训练框架。直接解决上周报道的"环境太差拖累模型"的问题。做 RL 训练的，认真评估一下。详情 →

Graphify 号称用知识图谱把 Claude Code token 消耗砍了 71 倍。 55K GitHub stars、450K PyPI 下载 — 它给你的代码库建一个知识图谱，让 Claude Code 读结构而不是读原始文件。如果你在大型 repo 上的 Claude Code 账单很高，值得跑个对比：pip install graphify。(42 likes | 17 RTs) 详情 →

🎓 模型小课堂

构念效度（Construct Validity）在 AI Benchmark 中的意义：METR 的 FrontierCode 发现暴露了一个根本问题 — SWE-Bench 号称测的是"工程能力"，实际测的是"能不能让测试通过"。构念效度问的就是这个：你的 benchmark 真的在测你以为它在测的东西吗？一个模型能让所有测试用例通过，但写出来的代码没有错误处理、命名混乱、无法维护 — 这算"会写代码"吗？当 AI 实验室争相刷排行榜的时候，构念效度是区分"有用的评估"和"昂贵的虚荣指标"的关键概念。下次看到某家发"跑分第一"的新闻，先问一句：它测的真是你关心的能力吗？

⚡ 快讯

Simon Willison 深度拆解 WWDC Siri AI 架构：苹果没细说的技术细节，他替你挖出来了。链接
Mollick：一年前最接近 AI Agent 的东西还是 o3：从 o3 到今天的自主编码 Agent 生态，一年变化之大令人咋舌。(2,947 likes | 103 RTs) 链接
Ollama 新增 Hermes Desktop：本地 AI 有了可视化 Agent 界面：ollama launch hermes-desktop 一行命令搞定。链接
Unsloth 发布 Gemma 4 26B QAT GGUF — 已有 87K 下载：完整 Gemma 4 QAT 阵容现在可以用 llama.cpp 和 Ollama 本地跑了。(100 likes | 87.5K downloads) 链接
独立跑分：Opus 自主研究最强，Claude Code 最佳 harness：领先 GPT-5.5/Codex 和 DeepSeek v4 Pro。(54 likes | 5 RTs) 链接

🎯 今日精选

SWE-Bench 一半的"胜利"过不了 Code Review — AI 编码 benchmark 最大的信任危机来了：METR 的 FrontierCode 评估揭示了一个让人不安的事实：SWE-Bench 上排名靠前的模型，超过一半的解决方案在真实的 Code Review 中会被打回。测试通过了，但代码质量不及格 — 没有错误处理、硬编码魔术数字、破坏已有架构。这意味着行业最常引用的编码 benchmark 测的是"让测试变绿的能力"，而不是"工程能力"。问题不只是学术的：每一个基于 SWE-Bench 排行榜做出的投资决策、采购决策、技术选型，都建立在一个有缺陷的度量上。FrontierCode 用 3000+ 条维护者级别的评分标准重新定义了什么叫"写好代码"，这才是 AI 编码评估该有的样子。详情 →

下期见 ✌️