Claude Code Auto Mode 来了 — Agent 自己决定什么该问你
🧠 发布动态
Claude Code Auto Mode 来了 — Agent 自己决定什么该问你。
以前用 Claude Code 只有两种选择:每个文件写入都要你点确认,或者开 yolo 模式完全放飞。Auto Mode 填上了中间地带 — Agent 根据操作风险自主判断权限,高风险操作仍然会请求审批,低风险的直接执行。这是 Agent 工作流从"工具"进化到"同事"的关键一步。今天就在 Claude Code 里试试。(25,237 likes | 1,653 RTs) 详情 →
延伸阅读:我们之前深入聊过 Agent Harness 设计的重要性 — Agent Harness 才是 2026 年 AI 竞争的真正护城河
Gemini Flash-Lite 实时生成整个网站。 Google DeepMind 演示了一个浏览器 — 你每点一个链接,页面实时生成,不是预渲染。这不是"AI 帮你写网页",是"AI 就是网页"。快且便宜的推理能做什么,这个 demo 给出了一个极端答案。(1,141 likes | 107 RTs) 详情 →
Sakana AI 面向日本用户推出免费聊天服务。 基于 DeepSeek-V3.1 后训练的 Namazu 模型,专门针对日本语境做了价值观适配和偏见修正。这是区域化 AI 适配的模板 — 不是翻译,是重新训练。服务日本用户的开发者值得关注。(5,311 likes | 1,505 RTs) 详情 →
Moonshot Kimi-K2.5 下载量突破 360 万。 多模态 Agent 架构,HuggingFace 上热度持续走高。图文理解 + Agent 能力的组合让它被拿来和 Claude 对比 — 如果你在用 VLM,该跑个 benchmark 了。(2,344 likes | 3.63M downloads) 详情 →
🔧 开发者工具
Figma MCP 更新 — Claude Code 拿到了完整的设计系统上下文。
这不是"AI 看截图猜设计"。更新后的 Figma MCP Server 让 Claude Code 能读取你的设计系统变量、组件库、样式规范。设计稿到代码的循环从"来回截图对话"变成了"Agent 直接理解设计语言"。前端团队今天就该接上试试。(5,040 likes | 277 RTs) 详情 →
Claude Code 云端定时任务上线。 用 /schedule 直接在终端创建云端 cron job,Claude 从按需工具变成了常驻后台 worker。代码审查、日志监控、数据同步 — 以前需要写脚本部署的事,现在一句话搞定。(4,115 likes | 308 RTs) 详情 →
MolmoWeb:开源浏览器 Agent,代码全部可审计。 Allen AI 基于 Molmo 视觉语言模型做的浏览器自动化 Agent,完全开源。和商业 computer-use Agent 不同,你可以逐行检查它在干什么。本地跑,数据不出境。(564 likes | 72 RTs) 详情 →
📝 技术实战
Anthropic 研究发现:Harness 设计对跑分的影响超过模型差异。
这篇工程博客揭示了一个被严重低估的事实 — 你怎么配置 Agent 的脚手架(文件访问权限、工具配置、上下文注入方式),对编码 benchmark 得分的影响可以达到好几个百分点,有时比顶级模型之间的差距还大。今天的 Claude Code Auto Mode 和 Figma MCP 本质上都是 harness 设计决策。别只盯着模型排行榜,你的 Agent 配置可能才是瓶颈。 详情 →
延伸阅读:LangChain Harness Engineering 实战:同一模型,排名从第 30 跳到第 5
在 Mac 上跑超大 MoE 模型:从 SSD 流式加载专家权重。 不需要把整个模型塞进内存 — 每个 token 只激活需要的专家,权重从 SSD 按需读取。在 Apple Silicon 上跑 frontier 级 MoE 模型不再是妄想,本地推理的天花板又被推高了一截。(3,104 likes | 218 RTs) 详情 →
🔬 研究前沿
Epoch 确认:GPT-5.4 Pro 解出了 Ramsey 超图论的一个开放问题。
不是刷榜,不是 benchmark,是独立机构验证的真正数学发现。GPT-5.4 Pro 解决了一个人类数学家尚未攻克的 Ramsey 超图论问题。这是 LLM "推理能力"从排行榜走向实际学术贡献的第一个可信证据。(399 likes | 572 RTs) 详情 →
Anthropic Economic Index:老手用 AI 的方式和新手完全不同。 数据显示,经验丰富的 Claude 用户迭代更频繁、更少追求全自动化、敢挑更难的任务、效果也更好。启示很清楚 — AI 工具的技能上限远没到顶,你团队的 AI 使用模式值得审视。(1,567 likes | 150 RTs) 详情 →
OpenReward:330+ RL 环境、450 万+ 任务、一个 API 搞定。 自动扩展的沙盒计算,统一接口。如果你在做 RL Agent 训练,这可能会成为标准基础设施。(955 likes | 130 RTs) 详情 →
💡 行业洞察
LiteLLM 被 PyPI 隔离 — AI 工具链的供应链安全拉响警报。
最流行的 LLM 代理库之一被发现遭到供应链攻击,PyPI 已将其标记为隔离状态。如果你的依赖树里有 LiteLLM,现在就去审计。AI 工具链正在成为供应链攻击的高价值目标 — 用的人多、权限大、审计少。(819 likes | 85 RTs) 详情 →
延伸阅读:1) add an explicit threat-model sync step per repo
你的文件系统就是 Agent 的攻击面。 Jim Fan 指出了一个真实的威胁场景:拥有文件系统访问权限的 AI Agent 可以通过上下文中的任何文件被投毒 — Skills 文件、PDF、配置文件都是入口。LiteLLM 事件把这个风险从理论变成了现实。认真审查你的 Agent 能访问哪些文件。(390 likes | 40 RTs) 详情 →
印度 Sarvam 融资 2-2.5 亿美元,NVIDIA 领投 — 2026 年首个 AI 独角兽。 Frontier AI 不只是中美的故事。有硬件巨头背书的区域 AI 实验室正在成为一股力量,Sarvam 专注印度市场的多语言模型,值得持续关注。(894 likes | 133 RTs) 详情 →
🏗️ 值得一试
Hypura:Apple Silicon 上的存储感知 LLM 推理调度器。 智能调度 RAM、SSD、swap 之间的模型权重加载,配合前面说的 MoE-on-SSD 技术,本地跑大模型的体验又进了一步。(186 likes | 74 RTs) 详情 →
SentrySearch:用 Gemini 原生视频嵌入实现亚秒级视频搜索。 不切帧、不转文字,直接对视频内容做向量检索。媒体内容多的团队可以 fork 来用。(227 likes | 66 RTs) 详情 →
🎓 模型小课堂
Agentic Harness Design(Agent 脚手架设计):你以为 AI 编码 Agent 的表现主要取决于底层模型?Anthropic 最新研究告诉你:不一定。所谓 Harness,就是包裹在模型外面的那层"脚手架" — 文件访问范围、工具调用权限、上下文注入策略、错误恢复机制。研究发现,调整这些配置带来的 benchmark 分数波动,有时比换一个顶级模型还大。今天 Claude Code 的 Auto Mode(权限自治)和 Figma MCP(设计上下文注入)本质上都是 harness 设计决策。下次选 AI 编程工具时,别只看模型跑分 — 看看它的 harness 设计得怎么样。
⚡ 快讯
- OpenAI 开源青少年安全分类器:基于 prompt 的内容安全策略,面向未成年用户的应用可以直接接入。 链接
- hf-mount:把 HuggingFace 上的任何模型或数据集挂载为本地文件夹,不用下载。(739 likes | 113 RTs) 链接
- HuggingFace 支持在平台上完整预训练 LLM:训练自己的模型门槛降到了浏览器标签页。(172 likes | 30 RTs) 链接
- DeepMind × Agile Robots:将 Gemini 基础模型引入物理机器人,软件 Agent 之后的下一个前沿。(1,045 likes | 145 RTs) 链接
- ServiceNow 发布 EVA:语音 Agent 评估框架,填补了语音 AI 标准化评测的空白。 链接
- ProofShot:给 AI 编码 Agent 加上"眼睛",截图验证生成的 UI 是否符合预期。(114 likes | 71 RTs) 链接
🎯 今日精选
GPT-5.4 解出开放数学难题 — 这不是刷榜,是 AI 能力的质变信号:Epoch 独立确认 GPT-5.4 Pro 解决了一个 Ramsey 超图论中人类数学家尚未攻克的问题。这件事的意义远超一个数学结果本身 — 它是第一个可信的证据,表明大语言模型(LLM)能在数学前沿做出实质贡献,而不只是在已知问题上刷分。这迫使我们重新思考"推理能力"到底意味着什么:排行榜得分高不等于能发现新东西,而能发现新东西才是真正的智能突破。对开发者来说,短期影响有限,但长期信号很明确 — AI 正在从"快速解题工具"进化为"研究伙伴",数学和科学领域可能最先感受到这种转变。 详情 →
下期见 ✌️