OpenAI 让 ChatGPT 订阅用户直接在 Zed 里写代码 — 不用单独买 Codex
🧠 发布动态
OpenAI 让 ChatGPT 订阅用户直接在 Zed 里写代码 — 不用单独买 Codex。
Zed 编辑器接入 ChatGPT 订阅,你现有的 Plus/Pro 额度直接能用,和 Codex 共享用量和速率限制。这意味着想试 AI 编程的门槛又低了一截 — 不用再纠结要不要多花一笔订阅费。对 Cursor 和 Windsurf 来说,免费流量的竞争对手来了。(2,265 likes | 127 RTs) 详情 →
30B 参数,只激活 3B,数学物理双料奥赛金牌。
HuggingFace 发布的这个 MoE 推理模型刷新了"小模型能做什么"的认知 — 30B 总参数中只有 3B 在推理时活跃,但在数学和物理奥林匹克评估中达到了金牌水平。关键是:3B 活跃参数意味着消费级 GPU 就能跑。大模型不一定要大算力,MoE 架构正在改写这个等式。(703 likes | 87 RTs) 详情 →
微软开源 Lens:38 亿参数文生图模型。 不追求最强画质,而是优化训练效率 — 对预算有限但需要图像生成能力的团队来说,这是一个轻量级开源选项。HuggingFace 已可下载。(165 likes | 17 RTs) 详情 →
xAI 训完 Grok V9,1.5 万亿参数。 比 V8 大 3 倍,Musk 说差距"巨大",而且还没加 Cursor 微调数据。又一个 frontier 选手要进编程 Agent 赛道了,等跑分出来再判断含金量。(34 likes | 12 RTs) 详情 →
🔧 开发者工具
Codex 进驻 ChatGPT 移动端:开发者已经在分享设置教程和工作流技巧了。手机上跑编程 Agent 这件事正在从"能用"变成"好用" — 通勤路上审代码、触发 CI、debug 不再是玩笑话。(630 likes | 54 RTs) 详情 →
Claude Code v2.1.143 更新:新增插件依赖强制检查、插件市场显示预估上下文成本、worktree 后台隔离。对跑多 Agent 工作流的用户来说,依赖链管理终于不用手动盯了。 详情 →
Supabase 发布 AI 编程 Agent 官方插件:MCP + Supabase skills,支持 Codex、Claude Code、Cursor、Gemini CLI。数据库即服务现在变成了 Agent 原生 — 你的 AI 助手可以直接操作 Supabase 创建表、写 RLS 策略、管理迁移。(82 likes | 11 RTs) 详情 →
📝 技术实战
硬数据:MCP 比原生 SDK 多吃 10 倍 token,同一个 API。
有人在 Monday.com 的 GraphQL API 上做了对照实验:SDK 原生调用 1 步搞定、15k token;走 MCP 服务器要 4 步、158k token。10 倍的 token 差距不只是成本问题 — 它暴露的是行业在急着标准化工具接口的同时,可能牺牲了 Agent 最需要的东西:紧凑、可预测的控制流。如果你正在架构 Agent 系统,先跑个对比再决定用不用 MCP。(136 likes | 12 RTs) 详情 →
Simon Willison:编程 Agent 让"先移植,再移植回来"变得经济合理。 用 Agent 把原生 App 移植到 React Native,试完不满意再移植回去 — 以前这是浪费,现在成本低到可以当探索手段。AI 编程工具正在重塑 build vs. rewrite 的经济学。(248 likes | 10 RTs) 详情 →
Claude Code 和 Codex CLI 的细微但实际的差异。 技能名称、内置功能(文档、浏览器测试)、特性覆盖都有不同。如果你的团队在两者之间选,这篇逐项对比比跑分有用。(45 likes | 2 RTs) 详情 →
🔬 研究前沿
英国 AISI 确认 Mythos Preview 是首个端到端通过两个网络安全靶场的模型。 此前没有任何模型做到过。能力跳跃是真实的,安全评估方法论需要跟上。(1,079 likes | 51 RTs) 详情 →
LeCun 的实用框架:LLM 在语言本身就是推理基底的领域最强。 数学、代码 — 语言就是推理过程本身,LLM 表现优异。但在语言只是描述层(比如物理世界建模)的领域,LLM 就力不从心了。这个区分对你决定在哪些场景部署 LLM 非常实用。(642 likes | 91 RTs) 详情 →
安大略省审计发现 AI 医疗笔记工具经常搞错基本临床事实。 不是偶尔出错,是"常规性地"搞错。这是来自政府审计的真实数据,和 AI 医疗的成功故事形成尖锐对比。高风险场景的验证层不是可选项。(40 likes | 7 RTs) 详情 →
💡 行业洞察
Anthropic 向盖茨基金会承诺 2 亿美元 — AI 实验室最大的公益押注。
覆盖全球健康、生命科学、教育、农业和经济赋能,包括资金、Claude 额度和技术支持。这不只是 PR — 2 亿美元的量级让"AI for Good"从口号变成了可追踪的承诺。Anthropic 在用行动定义"负责任的 AI 公司"长什么样。(2,094 likes | 191 RTs) 详情 →
OpenAI 重组产品团队,ChatGPT、Codex、API 合并。 Fidji Simo 休假期间,Greg Brockman 接管统一应用战略。所有 OpenAI 产品要变成同一个界面 — 这是组织架构层面的 all-in 赌注。对开发者意味着:API 和消费者产品的边界会越来越模糊。 详情 →
Anthropic 发布法律行业 Claude 部署案例。 继 5 月 13 日发布"Claude for Legal"之后,这次是具体的部署模式和落地经验。如果你在受监管行业做 AI 落地,部署架构值得参考。 详情 →
Mollick:Codex 仍然把非程序员当"能力不足的人"而非"需要不同界面的人"。 一个"万能应用"却用开发者思维设计交互 — 这个批评切中要害。AI 工具要真正普及,需要为不同用户设计不同的复杂度层级,而不是默认所有人都该学会用命令行。(475 likes | 9 RTs) 详情 →
🏗️ 值得一试
用浏览器看神经网络实时学会玩贪吃蛇:PPO 强化学习的交互式可视化,训练过程实时展示。想给同事或团队解释 RL 是什么?发这个链接比讲 PPT 管用十倍。(110 likes | 28 RTs) 详情 →
🎓 模型小课堂
混合专家模型(Mixture of Experts, MoE)与活跃参数:今天那个拿奥赛金牌的模型总共有 300 亿参数,但推理时只激活其中 30 亿 — 这就是 MoE 架构的核心思路。想象一个 300 人的专家团队,每个问题只需要 30 个人上场。MoE 把模型拆成多个"专家"子网络,每个 token 只路由给其中几个专家处理,其余的不消耗算力。结果就是:你用消费级硬件的推理成本,拿到了 frontier 级别的推理能力。以后评估模型别只看"总参数",看"活跃参数"才知道真正的部署成本。
⚡ 快讯
- Hashimoto 炮轰"AI 精神病":HashiCorp 创始人说整个行业都在做不理性的 AI 决策,引发广泛共鸣。(612 likes | 283 RTs) 链接
- Abridge 已处理 1 亿次问诊:每周为医生节省 10-20 小时,AI 医疗赛道最扎实的规模化数据。 链接
- Latent Space 深度拆解 Codex vs Claude 商业模式战:编程 Agent 背后的定价和商业策略博弈。 链接
- 下周对决:GPT 5.6 vs Gemini 3.2 发布在即:frontier 模型发布节奏已经卷到按周算了。(200 likes | 5 RTs) 链接
🎯 今日精选
MCP 的 10 倍 token 效率差距不只是成本问题 — 它暴露了标准化的真实代价:有人在同一个 GraphQL API 上做了严格对照:原生 SDK 调用 1 步、15k token;MCP 服务器 4 步、158k token。10 倍差距。行业正在一窝蜂地拥抱 MCP 作为工具调用的统一标准,理由是互操作性。但这个实验揭示的问题更深层:当你为了"任何 Agent 都能调用任何工具"而加入一层抽象时,你牺牲的是 Agent 最核心的需求 — 紧凑、可预测的控制流。MCP 的额外步骤不是"开销",而是 Agent 在抽象层里迷路的证据。这不意味着 MCP 没有价值,但它意味着在性能敏感的 Agent 工作流里,你应该先跑一次 SDK 原生方案的对比,再决定是否为了标准化付出 10 倍代价。标准化是好事,但别让它变成信仰。 详情 →
下期见 ✌️