Claude 拿到了每台苹果设备的入场券
🧠 发布动态
Claude 拿到了每台苹果设备的入场券。
Anthropic 把 Claude 直接集成进了 Apple 的 Foundation Models 框架 — 这不是"Siri 接了个 API",而是 iOS/macOS 开发者现在有了一条官方路径,在自己的 App 里调用 Claude 能力。WWDC 紧接着宣布,时机拿捏到位。对开发者来说,这意味着你在 Swift 里写几行代码就能让 App 具备 Claude 级别的推理能力,分发渠道直接是 App Store。苹果生态的 AI 应用要爆发了。 详情 →
Apple 亮出新 AI 架构:Gemini 做底座,Claude 进框架,多供应商才是正解。
苹果在 WWDC 2026 公布的 AI 架构以 Google Gemini 为核心驱动 — 同时把 Claude 纳入 Foundation Models 框架。这不是二选一,而是苹果从第一天就设计了多供应商架构。对开发者意味着灵活性:底层能力靠 Gemini,应用层集成可以选 Claude,苹果自己不押注单一模型。Frontier model 的竞争格局从"谁赢"变成了"谁被选进平台"。(307 likes | 291 RTs) 详情 →
Qwen3.5 发布量化检查点 — 从设计阶段就和推理工程师共建。 不是训完再压缩的事后补救,而是从一开始就针对高效部署优化。跟 Gemma 4 的 QAT 思路一脉相承:模型不只追求跑分峰值,还要能高效跑起来。用 Qwen 的赶紧跑个对比。(235 likes | 37 RTs) 详情 →
JetBrains 掏出了自己的编码模型 Mellum2。 强编码 + 通用语言能力,关键是低延迟 — 这是给 IDE 场景量身定做的。做 IntelliJ 和 PyCharm 的人比谁都懂开发者在 IDE 里需要什么样的响应速度。编码模型赛道又多了一个有产品感的玩家。(214 likes | 19 RTs) 详情 →
🔧 开发者工具
Figma MCP Server 登陆 Xcode — 设计到代码的工作流成了苹果一等公民:WWDC 上 Figma 宣布其 MCP Server 正式支持 Xcode。设计稿通过 MCP 协议直接喂给编码 Agent,"看着设计稿写代码"这件事从 hack 变成了标准工作流。配合昨天 Jane Street 用 Claude 读 Figma 的发现,设计和代码的边界在加速消融。(187 likes | 12 RTs) 详情 →
Anthropic 发布 Claude Connector 可观测性指南:你的 Agent 在 MCP Server 和工具调用之间跑了一圈出了问题,怎么 debug?Anthropic 给出了官方的 instrumentation 方案。生产环境跑 Agent 的团队,这是刚需文档。 详情 →
Claude Code v2.1.169:Safe Mode、/cd、技能开关:新增 --safe-mode 一键禁用所有自定义配置排查问题,/cd 切目录不再丢缓存,还能关闭内置 Skill。Power user 必更新。 详情 →
📝 技术实战
让 Opus 连续自主跑几天的五个实战经验。
Anthropic 工程师 Boris Cherny 分享了长时间自主运行 Opus 的 battle-tested 模式:auto mode 全自动、dynamic workflows 动态编排、/goal 设定目标、/loop 持续循环。独立跑分已经确认 Opus 是长时间自主任务的最强模型,这些技巧直接就能用 — 下次碰到大任务,试试 auto mode + /loop 的组合。(3,083 likes | 236 RTs) 详情 →
🔬 研究前沿
METR 的 FrontierCode 揭了 SWE-Bench 的老底:一半以上的"解法"过不了 Code Review。 METR 评估发现,SWE-Bench 上超过 50% 的解决方案在真实 Code Review 中会被打回。FrontierCode 提供 1000+ 小时的维护者验证任务和 3000+ 条代码质量评分标准 — 一个诚实得多的 benchmark。如果你还在根据 SWE-Bench 排行榜选模型,该换个参考系了。(345 likes | 32 RTs) 详情 →
AI 写代码飞快,做生物实验却磕磕绊绊 — 为什么? Anthropic 科学博客解释了:为人类工作流设计的生物数据库对程序化 Agent 极不友好。这篇分析提供了一个框架,帮你判断 AI 在哪些领域能快速自动化、哪些领域还差得远。想做 AI + 科研的,必读。(1,783 likes | 221 RTs) 详情 →
VLA-JEPA 登陆 LeRobot — 从视频学动作,不只是学感知。 Meta 的 LeRobot 框架新增 VLA-JEPA,核心突破是从视频理解中学习"该做什么动作",而不只是"看到了什么"。这和 Jitendra Malik 的观点一致:机器人的瓶颈是规划,不是感知。LeCun 亲自推。(1,142 likes | 157 RTs) 详情 →
沃顿商学院算了一笔账:AI 必须带来 2.7 倍生产力提升,否则科技公司估值撑不住。 这篇论文给了管理层一个具体数字 — 如果你的 AI 投资达不到 2.7 倍的生产力回报,当前的估值水平就是泡沫。对决策者来说,这是一个可量化的投资基准。(830 likes | 176 RTs) 详情 →
💡 行业洞察
OpenAI 向 SEC 递交 S-1:3000 亿美元估值的 AI 实验室要上市了。
AI 行业最大的公司里程碑 — OpenAI 正式启动 IPO 程序。这不只是一次融资,它将重塑 AI 实验室的资金来源和治理结构。从非营利到营利到上市公司,OpenAI 的转型比任何技术突破都更能说明这个行业走到了哪一步。公开招股书一出,所有竞争对手的战略都得重新评估。(222 likes | 134 RTs) 详情 →
Sam Altman 公开发布 OpenAI 战略路线图。 3,714 likes — 这一轮所有 AI 实验室 CEO 里 engagement 最高的战略帖。配合 S-1 递交的时间点,这篇路线图既是给投资者看的,也是给行业画的路标。(3,714 likes | 390 RTs) 详情 →
Claude Code 一周年:Auto Mode 赢了,手机写代码成了现实。 Anthropic 的 Boris Cherny 回顾 Claude Code GA 一年来的演变 — Plan Mode 为什么让位给了 Auto Mode、Routines 如何提前抓 bug、以及意想不到的趋势:越来越多人在手机上写代码。想了解这个产品的方向,这篇是窗口。(1,340 likes | 66 RTs) 详情 →
微软 VP 用 Claude Workflows 跑了整个代码库,然后公开晒了结果。 微软副总裁 Mikhail Parakhin 亲测 Claude Workflows 处理完整代码库,效果好到他愿意公开分享。一位微软高管给竞争对手的产品站台,这个信号值千金。(446 likes | 5 RTs) 详情 →
"AI 在减速"论文发在各大实验室疯狂发货的同一周。 高 engagement 的逆向观点 — 论证 AI 进步正在放缓。有趣的是发布时机:OpenAI 递交 S-1、苹果接入多个 frontier 模型、各家新模型密集发布……这个反差本身就值得批判性阅读。(351 likes | 374 RTs) 详情 →
🏗️ 值得一试
OpenEnv:训练"会用工具"的 Agent 的社区标准框架。 HuggingFace 力推的 agentic RL 环境标准 — 统一了 Agent 与真实工具和 API 交互的训练框架。直接解决上周报道的"环境太差拖累模型"的问题。做 RL 训练的,认真评估一下。 详情 →
Graphify 号称用知识图谱把 Claude Code token 消耗砍了 71 倍。 55K GitHub stars、450K PyPI 下载 — 它给你的代码库建一个知识图谱,让 Claude Code 读结构而不是读原始文件。如果你在大型 repo 上的 Claude Code 账单很高,值得跑个对比:pip install graphify。(42 likes | 17 RTs) 详情 →
🎓 模型小课堂
构念效度(Construct Validity)在 AI Benchmark 中的意义:METR 的 FrontierCode 发现暴露了一个根本问题 — SWE-Bench 号称测的是"工程能力",实际测的是"能不能让测试通过"。构念效度问的就是这个:你的 benchmark 真的在测你以为它在测的东西吗?一个模型能让所有测试用例通过,但写出来的代码没有错误处理、命名混乱、无法维护 — 这算"会写代码"吗?当 AI 实验室争相刷排行榜的时候,构念效度是区分"有用的评估"和"昂贵的虚荣指标"的关键概念。下次看到某家发"跑分第一"的新闻,先问一句:它测的真是你关心的能力吗?
⚡ 快讯
- Simon Willison 深度拆解 WWDC Siri AI 架构:苹果没细说的技术细节,他替你挖出来了。 链接
- Mollick:一年前最接近 AI Agent 的东西还是 o3:从 o3 到今天的自主编码 Agent 生态,一年变化之大令人咋舌。(2,947 likes | 103 RTs) 链接
- Ollama 新增 Hermes Desktop:本地 AI 有了可视化 Agent 界面:
ollama launch hermes-desktop一行命令搞定。 链接 - Unsloth 发布 Gemma 4 26B QAT GGUF — 已有 87K 下载:完整 Gemma 4 QAT 阵容现在可以用 llama.cpp 和 Ollama 本地跑了。(100 likes | 87.5K downloads) 链接
- 独立跑分:Opus 自主研究最强,Claude Code 最佳 harness:领先 GPT-5.5/Codex 和 DeepSeek v4 Pro。(54 likes | 5 RTs) 链接
🎯 今日精选
SWE-Bench 一半的"胜利"过不了 Code Review — AI 编码 benchmark 最大的信任危机来了:METR 的 FrontierCode 评估揭示了一个让人不安的事实:SWE-Bench 上排名靠前的模型,超过一半的解决方案在真实的 Code Review 中会被打回。测试通过了,但代码质量不及格 — 没有错误处理、硬编码魔术数字、破坏已有架构。这意味着行业最常引用的编码 benchmark 测的是"让测试变绿的能力",而不是"工程能力"。问题不只是学术的:每一个基于 SWE-Bench 排行榜做出的投资决策、采购决策、技术选型,都建立在一个有缺陷的度量上。FrontierCode 用 3000+ 条维护者级别的评分标准重新定义了什么叫"写好代码",这才是 AI 编码评估该有的样子。 详情 →
下期见 ✌️