Claude 能操控你的桌面了 — Anthropic 发布 Computer Use 研究预览

🧠 发布动态

Claude 能操控你的桌面了 — Anthropic 发布 Computer Use 研究预览。

不是补全代码，不是聊天对话 — Claude 现在能打开你的应用、操作浏览器、填表格，任何你坐在电脑前能干的事它都能干。这是 AI Agent 交互范式从"你告诉我该做什么"到"你看我做"的最大跳跃。研究预览已经可以在 Claude 里开启，今天就去试。(26,177 likes | 2,060 RTs) 详情 →

Dispatch + Computer Use：出门在外也能遥控 Claude。 Felix Rieseberg（Anthropic）点出了关键组合拳 — 用 Dispatch 远程控制 Claude 在你电脑上干活，人不在也能跑 Agent 工作流。这就是大家等了很久的异步 Agent 方案。(9,494 likes | 645 RTs) 详情 →

延伸阅读：我们之前深入分析过 Dispatch 如何启动 Claude Code 会话 — Dispatch 支持启动 Claude Code 会话

NVIDIA Kimodo：用文字提示控制视频时间线。

告诉它"一个人向前走" — 它生成对应的视频序列。NVIDIA 的 Kimodo 不是又一个文生视频玩具，而是可控视频生成的重大突破：你能精确描述运动轨迹，模型按你的时间线生成。硬件巨头正式下场打生成模型的仗了。(1,990 likes | 221 RTs) 详情 →

Dimension 来了：永不下班的 AI 同事。 2 分钟设置完毕，自动搞定晨报、会议摘要和异步任务。"AI 队友"这个品类正在快速升温 — 和 Claude 的调度能力、Codex 后台任务放一起比较看看。(1,697 likes | 107 RTs) 详情 →

GLM-5.1 宣称开源模型第一。 智谱最新发布的 GLM-5.1 直接冲着开源榜首去了。如果跑分站得住，自部署团队多了一个可以认真对标 Llama 的选项。(55 likes) 详情 →

🔧 开发者工具

HuggingFace 发布 AgentUI — 专为多 Agent 协作设计的聊天界面。

不是在现有聊天框上加个多轮对话 — AgentUI 从头为多智能体工作流设计：Agent 之间通过共享报告和图表协调。这是第一个真正为多 Agent 场景而非单 Agent 聊天设计的 UI。(184 likes | 39 RTs) 详情 →

Figma × Claude Code MCP 直播定档 3 月 31 日。 Anthropic 工程师将演示如何用 Figma MCP 桥接设计师和工程师的工作流 — 前端团队等的设计到代码的流水线要来了。快去报名。(1,957 likes | 107 RTs) 详情 →

Mozilla AI 发布 Cq — 给编码 Agent 用的 Stack Overflow。 如果 Agent 是新一代开发者，它们也需要自己的知识库。Cq 让 Agent 查找已有方案而不是每次从头推导，聪明的基础设施思路。(24 likes | 9 RTs) 详情 →

📝 技术实战

HuggingFace Paper Pages：多数人都在错过的研究发现流程。 不管你在解决什么 AI 问题，Paper Pages 能帮你快速定位相关论文。大多数 builder 还没用上这个工具 — 现在开始用。(1,396 likes | 121 RTs) 详情 →

Random Priming：一个能量化提升 LLM 输出多样性的技巧。 研究发现，在 prompt 开头和结尾加入随机引导短语能显著增加输出多样性 — 因为大语言模型（LLM）对首尾位置的注意力权重更高。原理简单，效果可测。(353 likes | 47 RTs) 详情 →

一份 Claude Code 高效工作流实操手册。 不是理论，是日常使用中验证过的模式 — 从项目结构到 debug 流程。团队正在上手编码 Agent 的，直接拿来用。(91 likes | 71 RTs) 详情 →

延伸阅读：更多 Claude Code 生产力技巧见 5 Claude Code Skills I Use Every Single Day

热辣观点：你的 CLAUDE.md 可能写太长了。 Daniel Lockyer 认为大多数过度指导的 AGENTS.md / CLAUDE.md 文件删掉大部分反而更好 — 让工具对人和 AI 都"显而易见"，比写一堆规则更有效。在你的 CLAUDE.md 变成小说之前想想这个问题。(77 likes) 详情 →

延伸阅读：关于 Claude Code Skills 的最佳实践可参考 Claude Code Skills 最佳实践

🔬 研究前沿

端到端 JEPA 世界模型干掉 DINO-WM，不需要 Teacher-Student 训练。

用 SIGReg 做端到端训练 — 不要 teacher-student，不要 EMA（指数移动平均），照样赢。LeCun 的 JEPA 架构路线持续产出成果：自监督视觉模型直接学习世界动态。做世界模型的去读论文。(441 likes | 35 RTs) 详情 →

iPhone 17 Pro 跑 400B 参数 LLM。 是的，推理速度不快。但移动端芯片能加载并运行 frontier 级别的模型这件事本身就是信号 — 端侧 AI 不再局限于小模型了。(449 likes | 232 RTs) 详情 →

💡 行业洞察

Anthropic 开了个科学博客 — 把 Claude 定位为科研工具。 不只是编码助手，Anthropic 要让 Claude 成为科学家的工具。这个博客会发布研究成果和科学家使用 Claude 的案例，关注科研级 AI 应用的值得订阅。(1,957 likes | 223 RTs) 详情 →

Mollick：GPT-5.4 Pro 在最难任务上仍然独一档。 Ethan Mollick 说，面对真正困难复杂的问题，把所有上下文塞进 GPT-5.4 Pro 往往能拿到有用的结果 — 目前没有其他模型能匹配这个水平。选模型时的实用参考。(1,179 likes | 58 RTs) 详情 →

Altman 退出 Helion 董事会，OpenAI-Helion 能源合作启动。 Sam Altman 离开了核聚变公司 Helion 的董事会，同时 OpenAI 开始和 Helion 探索大规模能源合作。AI 的算力需求正在重塑电力基础设施 — 这个合作的规模暗示了接下来计算基建的野心。(1,947 likes | 96 RTs) 详情 →

🏗️ 值得一试

3,500 行纯 Python 搭建生产级自进化 Agent。 零框架依赖、8 个文件，实现了工具调用循环、三层记忆、MCP 插件、自修复和 Docker 多租户隔离。极简 Agent 架构的教科书，想自己搭 Agent 的必看。(128 likes | 23 RTs) 详情 →

给真实汽修店造了个 AI 前台。 一个开发者为汽修店部署了能接真实电话、处理真实预约的 AI 接待员。又一个 AI 从科技圈走向街边小店的案例。(200 likes | 221 RTs) 详情 →

🎓 模型小课堂

Computer Use 的核心技术：基于截图解析的桌面操控。 Claude 的 computer use 不是通过操作系统底层的无障碍 API 来操控界面的 — 它靠的是视觉理解。工作原理是一个"截图→理解→动作"的循环：截屏、用视觉模型理解屏幕内容、决定下一步操作（点击、输入、滚动），然后再截屏验证结果。这种方法的最大优势是通用性 — 不需要任何应用适配或集成工作，任何应用都能用。代价是延迟：每一步都需要截图和推理，比直接调 API 慢。但正是这种"看屏幕干活"的方式，让 AI Agent 第一次能像人一样操作任意软件。

⚡ 快讯

Claude Code 速查表：社区整理的命令和快捷键一页速查。链接
为颠覆性科学设计 AI：Asimov Press 探讨如何让 AI 产出真正新颖的发现而非增量改进。链接
Simon Willison 深挖 JavaScript 沙箱方案：跑 LLM 生成的代码，安全边界怎么画？必读。链接

🎯 今日精选

Computer Use 不只是一个功能 — 这是 Anthropic 押注下一代 Agent 界面不是聊天而是桌面操控。 "AI 助手"和"AI 操作员"之间的距离，今天缩成了一个研究预览的开关。Claude 现在能打开应用、操作浏览器、填写表格 — 任何你坐在电脑前能干的事。关键在于技术路线的选择：基于截图的视觉理解而非系统级 API，意味着这套方案天生适用于任何应用，不需要逐个集成。再加上 Dispatch 的远程控制能力，异步 Agent 工作流第一次有了完整闭环：你设定任务、离开、Claude 在你的电脑上执行、完成后通知你。这不是渐进式改进，这是 Agent 交互范式的质变。详情 →

下期见 ✌️