Cursor 发布 Origin — 为 Agent 时代重新设计的版本控制系统

🧠 发布动态

Cursor 发布 Origin — 为 Agent 时代重新设计的版本控制系统。

Git 诞生于人类开发者一天提几个 commit 的时代，而现在一个 Agent 编排流程能在几分钟内产生几十个并行分支。Origin 由 Cursor 和 Graphite 联合打造，原生支持 API 和 MCP 扩展，内置 Agent 并行会话的合并冲突解决。这不是给 Git 贴个 AI 补丁 — 而是承认 AI Agent 已经长大到超出了人类为自己造的基础设施。如果你的工作流已经开始被 Git merge hell 拖后腿，关注这个。(2,191 likes | 107 RTs) 详情 →

智谱发布 GLM-5.2 开源权重 — 号称追平 Opus 4.8，100 万 token 上下文。

GLM-5.2 用了一种叫 IS attention 的新机制，每 4 个稀疏层复用一个 indexer，性能提升 2.9 倍。号称达到 Opus 4.8 水平，还给了 100 万 token 的上下文窗口。中国开源模型追赶前沿的速度令人侧目 — 上一轮还在对标 Sonnet，这一轮直接瞄准 Opus。开源权重已上 HuggingFace，自己跑个 benchmark 验证。(273 likes) 详情 →

OpenAI Codex 在欧盟上线浏览器、Computer Use 和 Memory。 Codex 不再只是写代码的工具了 — Chrome 自动化、桌面操控、持久记忆和 Chronicle 功能同时向欧盟/英国用户开放。这是从代码助手到全能桌面自动化平台的跳跃。欧洲用户现在就能试。(624 likes | 30 RTs) 详情 →

阿里 Qwen 发布机器人基础模型全家桶。 Qwen Robot Suite 是专门为物理世界智能打造的模型套件 — 配合 NVIDIA 同一周发布的 ENPIRE，物理 AI 迎来了突破周。从感知到规划到控制，一套模型覆盖。做机器人的团队值得认真看技术报告。(112 likes | 17 RTs) 详情 →

英国政府找 DeepMind 用 AI 解决住房规划。 英国最头疼的政策问题之一 — 住房审批效率 — 现在交给了 Google DeepMind 做原型。这是 AI 从实验室走进政府实际运作的具体案例，不是画饼，是真的在做。详情 →

🔬 研究前沿

NVIDIA ENPIRE：8 个 Codex Agent 自主指挥机器人舰队做科研。

Jim Fan 展示了 ENPIRE 系统 — 8 个 Codex Agent 协调调配机器人、GPU 和 token 预算，全程零人类干预。这是自主 AI 研究第一次从仿真走进真实物理世界。关键不是"机器人能动"，而是"AI 能自己设计实验、执行实验、分析结果、再设计下一轮"。AutoResearch 的里程碑。(1,977 likes | 307 RTs) 详情 →

Anthropic 公开了衡量 Claude Code 经济效益的研究框架。

你的公司该不该给开发者买 AI 编码工具？Anthropic 发布了首个系统性框架，追踪 Claude Code 在不同用户群和任务类型上的使用规模效应。难得的透明度 — 大部分 AI 公司只告诉你"提效 X%"，Anthropic 把研究方法也公开了。做采购决策的技术管理者应该读原文。(1,481 likes | 138 RTs) 详情 →

延伸阅读：我们此前对比了 Claude Code 和 Codex 的实际表现 — Claude Code vs Codex

OpenAI 用真实用户请求模拟部署来提前发现问题。 新的预发布安全方法：用脱敏的真实用户请求模拟模型在生产环境中的表现，在上线前发现潜在问题。填补了实验室评测和生产行为之间的鸿沟。做模型安全的值得研究方法论。(1,483 likes | 122 RTs) 详情 →

SkillsBench 1.1：首个经过完整审计的 AI Agent 技能评测基准。 Benchmark 里有 bug 这事儿已经不是新闻了，但 SkillsBench 1.1 做了一件别人没做的事 — 端到端审计，验证零错误。如果你还在用有已知缺陷的 benchmark 选模型，该换了。(51 likes | 16 RTs) 详情 →

💡 行业洞察

Simon Willison：Fable 5 出口管制正在削弱美国自身的网络防御。 反直觉但论证扎实 — Willison 认为限制盟国安全研究人员使用最强 AI 工具，实际上让美国的网络安全更脆弱而不是更安全。安全圈值得关注这个辩论。详情 →

Mollick 警告：你还有 4-8 个月加固系统。 逻辑很清晰 — 开源模型落后闭源 8-12 个月，Mythos 级别的能力已经被验证，那么 4-8 个月后这些能力就会出现在开源权重里。给安全团队的时间窗口很明确，现在就该开始安全审计。(496 likes | 33 RTs) 详情 →

Satya Nadella 谈 Loopcraft：微软如何思考 AI 平台层。 Nadella 提出"loopcraft"概念 — 通过堆叠反馈循环来构建 AI 生态系统。这不是产品发布，而是战略框架：微软想做的是 AI 时代的操作系统层，所有其他应用都在它上面跑。Latent Space 做了深度解读。详情 →

OpenAI 评测负责人：现有 Benchmark 已经失效了。 前沿模型把现有评测跑穿或者学会了"应试技巧"，评测分数越来越难反映真实能力。结合今天 SkillsBench 1.1 的发布，评测方法论的重建正在进行中。(1,162 likes | 75 RTs) 详情 →

传 GPT 5.6 和 Gemini 3.5 即将发布 — Fable 级别能力，一半价格。 如果消息属实，Fable 被禁的影响会被大大稀释 — 同等级能力几周内就会有多个供应商提供，而且更便宜。价格战对用户只有好处。(730 likes | 33 RTs) 详情 →

OpenAI 投 16 万美元赞助 Astral 和 Codex 开源维护者。 继 100 万美元免费 Codex 额度后，OpenAI 又向 ruff/uv 的维护团队 Astral 和 Codex 工具链维护者投钱。AI 实验室的竞争已经从模型质量延伸到开发者生态。你的开源项目可能也符合资助条件。(270 likes | 19 RTs) 详情 →

📝 技术实战

Claude Code 创造者：「我的整个 CLAUDE.md 就两行」。 Boris Cherny 的反直觉观点 — 大多数工程师在过度工程化他们的 CLAUDE.md 配置。模型越强，需要的指令越少而不是越多。这话从 Claude Code 的创造者嘴里说出来，分量不一样。审视一下你那 200 行的 CLAUDE.md，可能真的该删了。(112 likes | 9 RTs) 详情 →

🔧 开发者工具

Claude Code v2.1.179：修复中途断连和沙箱性能问题。 三个关键修复 — 中途连接断开时部分响应不再丢失、WSL2 鼠标滚动回归修复、大目录树下沙箱工具描述膨胀的性能问题。用 Claude Code 的赶紧更新。详情 →

🎓 模型小课堂

Benchmark Saturation（基准饱和）：当 AI 模型在某个评测上的分数已经接近满分或者超过人类水平时，这个评测就"饱和"了 — 它不再能区分不同模型的能力差异。更糟的是，模型可能通过"应试技巧"（比如记住了训练数据中的类似题目）来获得高分，而不是真的具备对应能力。今天 OpenAI 评测负责人公开承认现有 benchmark 正在失效，SkillsBench 1.1 作为首个经过完整审计的 Agent 评测基准上线 — 行业正在急切地寻找能跟上前沿模型发展速度的新评测方法。下次看到"某模型在 X benchmark 上登顶"的新闻时，先问一句：这个 benchmark 本身还靠谱吗？

⚡ 快讯

Sarvam AI：印度 AI 独角兽诞生，HCL Tech 领投 2.34 亿美元，估值 15 亿。链接
Ollama v0.30.9：新增 Cohere2Moe 支持，修复上下文窗口溢出时的报错。链接
VibeThinker-3B：微博入局模型训练，发布 3B 推理模型。链接
GPT-NL：荷兰发布主权语言模型，后 Fable 禁令时代欧洲加速自建。链接
datasette-agent 0.3a0：Willison 新作，对着 SQLite 数据库做 Agent 式数据探索。链接
datasette-tailscale 0.1a0：给 datasette 加 Tailscale 零配置认证，内网数据工具必备。链接

🎯 今日精选

Origin 不只是另一个开发工具 — 它是 AI 基础设施重写的第一块多米诺骨牌。 Cursor 发布 Origin 版本控制系统，表面上是"Git 替代品"，但背后的信号比产品本身更重要：AI Agent 已经长大到超出了人类为自己造的开发基础设施。Git 的设计假设是"一个开发者，线性提交，偶尔合并"，而 Agent 工作流是"十几个并行会话，每分钟产生分支，需要自动解决冲突"。Origin 是第一个正式承认这个矛盾的产品 — 版本控制只是第一张倒下的牌，CI/CD、代码审查、项目管理，整个开发者工具栈都面临围绕 Agent 原生工作流重建的压力。这不是 Cursor 一家的事，而是整个行业接下来 12-18 个月的主旋律。详情 →

下期见 ✌️