NewsletterBlogLearnCompareTopicsGlossary
English
RESEARCHTOOLLAUNCHINSIGHTTECHNIQUEBUILD

23 条资讯

Cursor 发布 Origin — 为 Agent 时代重新设计的版本控制系统

🧠 发布动态

Cursor 发布 Origin — 为 Agent 时代重新设计的版本控制系统。

Git 诞生于人类开发者一天提几个 commit 的时代,而现在一个 Agent 编排流程能在几分钟内产生几十个并行分支。Origin 由 Cursor 和 Graphite 联合打造,原生支持 API 和 MCP 扩展,内置 Agent 并行会话的合并冲突解决。这不是给 Git 贴个 AI 补丁 — 而是承认 AI Agent 已经长大到超出了人类为自己造的基础设施。如果你的工作流已经开始被 Git merge hell 拖后腿,关注这个。(2,191 likes | 107 RTs) 详情 →

智谱发布 GLM-5.2 开源权重 — 号称追平 Opus 4.8,100 万 token 上下文。

GLM-5.2 用了一种叫 IS attention 的新机制,每 4 个稀疏层复用一个 indexer,性能提升 2.9 倍。号称达到 Opus 4.8 水平,还给了 100 万 token 的上下文窗口。中国开源模型追赶前沿的速度令人侧目 — 上一轮还在对标 Sonnet,这一轮直接瞄准 Opus。开源权重已上 HuggingFace,自己跑个 benchmark 验证。(273 likes) 详情 →

OpenAI Codex 在欧盟上线浏览器、Computer Use 和 Memory。 Codex 不再只是写代码的工具了 — Chrome 自动化、桌面操控、持久记忆和 Chronicle 功能同时向欧盟/英国用户开放。这是从代码助手到全能桌面自动化平台的跳跃。欧洲用户现在就能试。(624 likes | 30 RTs) 详情 →

阿里 Qwen 发布机器人基础模型全家桶。 Qwen Robot Suite 是专门为物理世界智能打造的模型套件 — 配合 NVIDIA 同一周发布的 ENPIRE,物理 AI 迎来了突破周。从感知到规划到控制,一套模型覆盖。做机器人的团队值得认真看技术报告。(112 likes | 17 RTs) 详情 →

英国政府找 DeepMind 用 AI 解决住房规划。 英国最头疼的政策问题之一 — 住房审批效率 — 现在交给了 Google DeepMind 做原型。这是 AI 从实验室走进政府实际运作的具体案例,不是画饼,是真的在做。 详情 →


🔬 研究前沿

NVIDIA ENPIRE:8 个 Codex Agent 自主指挥机器人舰队做科研。

Jim Fan 展示了 ENPIRE 系统 — 8 个 Codex Agent 协调调配机器人、GPU 和 token 预算,全程零人类干预。这是自主 AI 研究第一次从仿真走进真实物理世界。关键不是"机器人能动",而是"AI 能自己设计实验、执行实验、分析结果、再设计下一轮"。AutoResearch 的里程碑。(1,977 likes | 307 RTs) 详情 →

Anthropic 公开了衡量 Claude Code 经济效益的研究框架。

你的公司该不该给开发者买 AI 编码工具?Anthropic 发布了首个系统性框架,追踪 Claude Code 在不同用户群和任务类型上的使用规模效应。难得的透明度 — 大部分 AI 公司只告诉你"提效 X%",Anthropic 把研究方法也公开了。做采购决策的技术管理者应该读原文。(1,481 likes | 138 RTs) 详情 →

延伸阅读:我们此前对比了 Claude Code 和 Codex 的实际表现 — Claude Code vs Codex

OpenAI 用真实用户请求模拟部署来提前发现问题。 新的预发布安全方法:用脱敏的真实用户请求模拟模型在生产环境中的表现,在上线前发现潜在问题。填补了实验室评测和生产行为之间的鸿沟。做模型安全的值得研究方法论。(1,483 likes | 122 RTs) 详情 →

SkillsBench 1.1:首个经过完整审计的 AI Agent 技能评测基准。 Benchmark 里有 bug 这事儿已经不是新闻了,但 SkillsBench 1.1 做了一件别人没做的事 — 端到端审计,验证零错误。如果你还在用有已知缺陷的 benchmark 选模型,该换了。(51 likes | 16 RTs) 详情 →


💡 行业洞察

Simon Willison:Fable 5 出口管制正在削弱美国自身的网络防御。 反直觉但论证扎实 — Willison 认为限制盟国安全研究人员使用最强 AI 工具,实际上让美国的网络安全更脆弱而不是更安全。安全圈值得关注这个辩论。 详情 →

Mollick 警告:你还有 4-8 个月加固系统。 逻辑很清晰 — 开源模型落后闭源 8-12 个月,Mythos 级别的能力已经被验证,那么 4-8 个月后这些能力就会出现在开源权重里。给安全团队的时间窗口很明确,现在就该开始安全审计。(496 likes | 33 RTs) 详情 →

Satya Nadella 谈 Loopcraft:微软如何思考 AI 平台层。 Nadella 提出"loopcraft"概念 — 通过堆叠反馈循环来构建 AI 生态系统。这不是产品发布,而是战略框架:微软想做的是 AI 时代的操作系统层,所有其他应用都在它上面跑。Latent Space 做了深度解读。 详情 →

OpenAI 评测负责人:现有 Benchmark 已经失效了。 前沿模型把现有评测跑穿或者学会了"应试技巧",评测分数越来越难反映真实能力。结合今天 SkillsBench 1.1 的发布,评测方法论的重建正在进行中。(1,162 likes | 75 RTs) 详情 →

传 GPT 5.6 和 Gemini 3.5 即将发布 — Fable 级别能力,一半价格。 如果消息属实,Fable 被禁的影响会被大大稀释 — 同等级能力几周内就会有多个供应商提供,而且更便宜。价格战对用户只有好处。(730 likes | 33 RTs) 详情 →

OpenAI 投 16 万美元赞助 Astral 和 Codex 开源维护者。 继 100 万美元免费 Codex 额度后,OpenAI 又向 ruff/uv 的维护团队 Astral 和 Codex 工具链维护者投钱。AI 实验室的竞争已经从模型质量延伸到开发者生态。你的开源项目可能也符合资助条件。(270 likes | 19 RTs) 详情 →


📝 技术实战

Claude Code 创造者:「我的整个 CLAUDE.md 就两行」。 Boris Cherny 的反直觉观点 — 大多数工程师在过度工程化他们的 CLAUDE.md 配置。模型越强,需要的指令越少而不是越多。这话从 Claude Code 的创造者嘴里说出来,分量不一样。审视一下你那 200 行的 CLAUDE.md,可能真的该删了。(112 likes | 9 RTs) 详情 →


🔧 开发者工具

Claude Code v2.1.179:修复中途断连和沙箱性能问题。 三个关键修复 — 中途连接断开时部分响应不再丢失、WSL2 鼠标滚动回归修复、大目录树下沙箱工具描述膨胀的性能问题。用 Claude Code 的赶紧更新。 详情 →


🎓 模型小课堂

Benchmark Saturation(基准饱和):当 AI 模型在某个评测上的分数已经接近满分或者超过人类水平时,这个评测就"饱和"了 — 它不再能区分不同模型的能力差异。更糟的是,模型可能通过"应试技巧"(比如记住了训练数据中的类似题目)来获得高分,而不是真的具备对应能力。今天 OpenAI 评测负责人公开承认现有 benchmark 正在失效,SkillsBench 1.1 作为首个经过完整审计的 Agent 评测基准上线 — 行业正在急切地寻找能跟上前沿模型发展速度的新评测方法。下次看到"某模型在 X benchmark 上登顶"的新闻时,先问一句:这个 benchmark 本身还靠谱吗?


⚡ 快讯

  • Sarvam AI:印度 AI 独角兽诞生,HCL Tech 领投 2.34 亿美元,估值 15 亿。 链接
  • Ollama v0.30.9:新增 Cohere2Moe 支持,修复上下文窗口溢出时的报错。 链接
  • VibeThinker-3B:微博入局模型训练,发布 3B 推理模型。 链接
  • GPT-NL:荷兰发布主权语言模型,后 Fable 禁令时代欧洲加速自建。 链接
  • datasette-agent 0.3a0:Willison 新作,对着 SQLite 数据库做 Agent 式数据探索。 链接
  • datasette-tailscale 0.1a0:给 datasette 加 Tailscale 零配置认证,内网数据工具必备。 链接

🎯 今日精选

Origin 不只是另一个开发工具 — 它是 AI 基础设施重写的第一块多米诺骨牌。 Cursor 发布 Origin 版本控制系统,表面上是"Git 替代品",但背后的信号比产品本身更重要:AI Agent 已经长大到超出了人类为自己造的开发基础设施。Git 的设计假设是"一个开发者,线性提交,偶尔合并",而 Agent 工作流是"十几个并行会话,每分钟产生分支,需要自动解决冲突"。Origin 是第一个正式承认这个矛盾的产品 — 版本控制只是第一张倒下的牌,CI/CD、代码审查、项目管理,整个开发者工具栈都面临围绕 Agent 原生工作流重建的压力。这不是 Cursor 一家的事,而是整个行业接下来 12-18 个月的主旋律。 详情 →


下期见 ✌️