Claude Code Auto Mode 来了 — Agent 自己决定什么该问你

🧠 发布动态

Claude Code Auto Mode 来了 — Agent 自己决定什么该问你。

以前用 Claude Code 只有两种选择：每个文件写入都要你点确认，或者开 yolo 模式完全放飞。Auto Mode 填上了中间地带 — Agent 根据操作风险自主判断权限，高风险操作仍然会请求审批，低风险的直接执行。这是 Agent 工作流从"工具"进化到"同事"的关键一步。今天就在 Claude Code 里试试。(25,237 likes | 1,653 RTs) 详情 →

延伸阅读：我们之前深入聊过 Agent Harness 设计的重要性 — Agent Harness 才是 2026 年 AI 竞争的真正护城河

Gemini Flash-Lite 实时生成整个网站。 Google DeepMind 演示了一个浏览器 — 你每点一个链接，页面实时生成，不是预渲染。这不是"AI 帮你写网页"，是"AI 就是网页"。快且便宜的推理能做什么，这个 demo 给出了一个极端答案。(1,141 likes | 107 RTs) 详情 →

Sakana AI 面向日本用户推出免费聊天服务。 基于 DeepSeek-V3.1 后训练的 Namazu 模型，专门针对日本语境做了价值观适配和偏见修正。这是区域化 AI 适配的模板 — 不是翻译，是重新训练。服务日本用户的开发者值得关注。(5,311 likes | 1,505 RTs) 详情 →

Moonshot Kimi-K2.5 下载量突破 360 万。 多模态 Agent 架构，HuggingFace 上热度持续走高。图文理解 + Agent 能力的组合让它被拿来和 Claude 对比 — 如果你在用 VLM，该跑个 benchmark 了。(2,344 likes | 3.63M downloads) 详情 →

🔧 开发者工具

Figma MCP 更新 — Claude Code 拿到了完整的设计系统上下文。

这不是"AI 看截图猜设计"。更新后的 Figma MCP Server 让 Claude Code 能读取你的设计系统变量、组件库、样式规范。设计稿到代码的循环从"来回截图对话"变成了"Agent 直接理解设计语言"。前端团队今天就该接上试试。(5,040 likes | 277 RTs) 详情 →

Claude Code 云端定时任务上线。 用 /schedule 直接在终端创建云端 cron job，Claude 从按需工具变成了常驻后台 worker。代码审查、日志监控、数据同步 — 以前需要写脚本部署的事，现在一句话搞定。(4,115 likes | 308 RTs) 详情 →

MolmoWeb：开源浏览器 Agent，代码全部可审计。 Allen AI 基于 Molmo 视觉语言模型做的浏览器自动化 Agent，完全开源。和商业 computer-use Agent 不同，你可以逐行检查它在干什么。本地跑，数据不出境。(564 likes | 72 RTs) 详情 →

📝 技术实战

Anthropic 研究发现：Harness 设计对跑分的影响超过模型差异。

这篇工程博客揭示了一个被严重低估的事实 — 你怎么配置 Agent 的脚手架（文件访问权限、工具配置、上下文注入方式），对编码 benchmark 得分的影响可以达到好几个百分点，有时比顶级模型之间的差距还大。今天的 Claude Code Auto Mode 和 Figma MCP 本质上都是 harness 设计决策。别只盯着模型排行榜，你的 Agent 配置可能才是瓶颈。详情 →

延伸阅读：LangChain Harness Engineering 实战：同一模型，排名从第 30 跳到第 5

在 Mac 上跑超大 MoE 模型：从 SSD 流式加载专家权重。 不需要把整个模型塞进内存 — 每个 token 只激活需要的专家，权重从 SSD 按需读取。在 Apple Silicon 上跑 frontier 级 MoE 模型不再是妄想，本地推理的天花板又被推高了一截。(3,104 likes | 218 RTs) 详情 →

🔬 研究前沿

Epoch 确认：GPT-5.4 Pro 解出了 Ramsey 超图论的一个开放问题。

不是刷榜，不是 benchmark，是独立机构验证的真正数学发现。GPT-5.4 Pro 解决了一个人类数学家尚未攻克的 Ramsey 超图论问题。这是 LLM "推理能力"从排行榜走向实际学术贡献的第一个可信证据。(399 likes | 572 RTs) 详情 →

Anthropic Economic Index：老手用 AI 的方式和新手完全不同。 数据显示，经验丰富的 Claude 用户迭代更频繁、更少追求全自动化、敢挑更难的任务、效果也更好。启示很清楚 — AI 工具的技能上限远没到顶，你团队的 AI 使用模式值得审视。(1,567 likes | 150 RTs) 详情 →

OpenReward：330+ RL 环境、450 万+ 任务、一个 API 搞定。 自动扩展的沙盒计算，统一接口。如果你在做 RL Agent 训练，这可能会成为标准基础设施。(955 likes | 130 RTs) 详情 →

💡 行业洞察

LiteLLM 被 PyPI 隔离 — AI 工具链的供应链安全拉响警报。

最流行的 LLM 代理库之一被发现遭到供应链攻击，PyPI 已将其标记为隔离状态。如果你的依赖树里有 LiteLLM，现在就去审计。AI 工具链正在成为供应链攻击的高价值目标 — 用的人多、权限大、审计少。(819 likes | 85 RTs) 详情 →

延伸阅读：1) add an explicit threat-model sync step per repo

你的文件系统就是 Agent 的攻击面。 Jim Fan 指出了一个真实的威胁场景：拥有文件系统访问权限的 AI Agent 可以通过上下文中的任何文件被投毒 — Skills 文件、PDF、配置文件都是入口。LiteLLM 事件把这个风险从理论变成了现实。认真审查你的 Agent 能访问哪些文件。(390 likes | 40 RTs) 详情 →

印度 Sarvam 融资 2-2.5 亿美元，NVIDIA 领投 — 2026 年首个 AI 独角兽。 Frontier AI 不只是中美的故事。有硬件巨头背书的区域 AI 实验室正在成为一股力量，Sarvam 专注印度市场的多语言模型，值得持续关注。(894 likes | 133 RTs) 详情 →

🏗️ 值得一试

Hypura：Apple Silicon 上的存储感知 LLM 推理调度器。 智能调度 RAM、SSD、swap 之间的模型权重加载，配合前面说的 MoE-on-SSD 技术，本地跑大模型的体验又进了一步。(186 likes | 74 RTs) 详情 →

SentrySearch：用 Gemini 原生视频嵌入实现亚秒级视频搜索。 不切帧、不转文字，直接对视频内容做向量检索。媒体内容多的团队可以 fork 来用。(227 likes | 66 RTs) 详情 →

🎓 模型小课堂

Agentic Harness Design（Agent 脚手架设计）：你以为 AI 编码 Agent 的表现主要取决于底层模型？Anthropic 最新研究告诉你：不一定。所谓 Harness，就是包裹在模型外面的那层"脚手架" — 文件访问范围、工具调用权限、上下文注入策略、错误恢复机制。研究发现，调整这些配置带来的 benchmark 分数波动，有时比换一个顶级模型还大。今天 Claude Code 的 Auto Mode（权限自治）和 Figma MCP（设计上下文注入）本质上都是 harness 设计决策。下次选 AI 编程工具时，别只看模型跑分 — 看看它的 harness 设计得怎么样。

⚡ 快讯

OpenAI 开源青少年安全分类器：基于 prompt 的内容安全策略，面向未成年用户的应用可以直接接入。链接
hf-mount：把 HuggingFace 上的任何模型或数据集挂载为本地文件夹，不用下载。(739 likes | 113 RTs) 链接
HuggingFace 支持在平台上完整预训练 LLM：训练自己的模型门槛降到了浏览器标签页。(172 likes | 30 RTs) 链接
DeepMind × Agile Robots：将 Gemini 基础模型引入物理机器人，软件 Agent 之后的下一个前沿。(1,045 likes | 145 RTs) 链接
ServiceNow 发布 EVA：语音 Agent 评估框架，填补了语音 AI 标准化评测的空白。链接
ProofShot：给 AI 编码 Agent 加上"眼睛"，截图验证生成的 UI 是否符合预期。(114 likes | 71 RTs) 链接

🎯 今日精选

GPT-5.4 解出开放数学难题 — 这不是刷榜，是 AI 能力的质变信号：Epoch 独立确认 GPT-5.4 Pro 解决了一个 Ramsey 超图论中人类数学家尚未攻克的问题。这件事的意义远超一个数学结果本身 — 它是第一个可信的证据，表明大语言模型（LLM）能在数学前沿做出实质贡献，而不只是在已知问题上刷分。这迫使我们重新思考"推理能力"到底意味着什么：排行榜得分高不等于能发现新东西，而能发现新东西才是真正的智能突破。对开发者来说，短期影响有限，但长期信号很明确 — AI 正在从"快速解题工具"进化为"研究伙伴"，数学和科学领域可能最先感受到这种转变。详情 →

下期见 ✌️