Harness-1：20B 参数跑出 frontier 级搜索能力

🧠 发布动态

Harness-1：20B 参数跑出 frontier 级搜索能力。

这可能是本周最值得关注的技术突破 — Harness-1 只有 200 亿参数，却在长程搜索任务上达到了 frontier 模型的水平。秘诀不是堆参数，而是"状态外置"（State Externalization）：把工作记忆卸载到外部存储，而不是硬塞进上下文窗口。这意味着小模型 + 聪明的架构设计 = 大模型的效果。对于资源有限但想做 Agent 的团队，这是一个信号：别只盯着参数量。(710 likes | 81 RTs) 详情 →

Claude Cowork 用量翻倍，持续一个月。 Anthropic 宣布 Claude Cowork 限额加倍，有效期一个月。如果你一直在等一个大项目的窗口期，现在就是最好的时机 — 把你最吃 token 的任务排上来。(12,199 likes | 761 RTs) 详情 →

NVIDIA 全面开源旗舰 AI 模型 — 权重、数据、训练方法一个不留。 Jensen Huang 这次诚意十足：模型权重、训练数据、训练方法论全部公开。四层透明度在商业 AI 公司中几乎没有先例。开源社区又多了一个重量级选手。(66 likes | 21 RTs) 详情 →

Google Magenta Realtime 2 上线 HuggingFace，下载量破万。 Google Magenta 团队推出实时文本转音频模型，上线不到两天就拿下近 1 万次下载。生成式音频赛道又热了一把。(108 likes | 9.4K downloads) 详情 →

🔧 开发者工具

Claude Code v2.1.166 新增 fallback 模型和 glob deny 规则：这版更新含金量不低 — fallbackModel 让你最多配 3 个备用模型，高峰期主模型过载时自动切换，再也不用干等。glob deny 规则则补上了安全短板，可以精确控制 Agent 能碰哪些文件。运维和安全团队都该看看。详情 →

Ollama v0.30.6：IDE Agent 集成 + Apple Silicon 量化优化。 Ollama 新增 Oh My Pi（AI 编码 Agent）原生集成，支持直接在 IDE 里用本地模型跑 Agent。同时 Apple Silicon 上的 MLX 量化（NVFP4）进一步优化。本地 AI 开发的体验越来越像在线服务了。详情 →

📝 技术实战

Anthropic 的决策框架：什么时候用 Agent Teams，什么时候用 Workflows？ Mollick 分享了 Anthropic 的多 Agent 架构决策图表 — 单 Agent、Workflow、还是 Agent Teams，取决于任务的复杂度和协作需求。随着多 Agent 模式变成主流，这张图值得贴在工位上。(469 likes | 52 RTs) 详情 →

问号技巧：为什么在指令末尾加个"？"比 Plan Mode 更好用？ swyx 分享了一个简单但有效的 prompting 技巧 — 把任务指令改成问句，模型就会先评估方案、提出替代建议，而不是闷头执行。一个问号的区别，输出质量差了一截。(246 likes | 12 RTs) 详情 →

🔬 研究前沿

Anthropic 公开递归自我改进（RSI）内部数据 — Claude 正在加速 AI 开发。

这是本周 AI 安全领域最重磅的消息：Anthropic 发布内部数据，展示 Claude 如何加速自身的研发过程。RSI 不再是理论假设 — Anthropic 用真实数据证明它正在发生。不管你对 AI 安全持什么立场，这份报告都该认真读一遍。(27,830 likes | 4,539 RTs) 详情 →

Sakana AI 成立全球首个递归自我改进专属实验室。 日本 Sakana AI 宣布成立专门研究 RSI 的实验室 — 这是第一个明确以"开放式自我改进 AI"为使命的研究机构。与 Anthropic 的数据发布呼应，RSI 正在从边缘话题变成前沿研究的核心方向。(490 likes | 55 RTs) 详情 →

Gemma 4 的 QAT 为什么比训后量化保留更多质量？ Google 官方博客详细解释了 Gemma 4 的量化感知训练（QAT）— 在训练过程中就模拟量化误差，而不是训完再压缩。结果是在手机和笔记本上跑出更接近全精度的效果。想在端侧部署模型的，QAT 检查点比 GPTQ/AWQ 更值得试。(235 likes | 78 RTs) 详情 →

💡 行业洞察

开源模型最疯狂的一周：7 天内 25+ 个模型密集发布。

这不是某一家的发布会 — 而是整个行业的集体行动。HuggingFace 统计了过去一周内涌现的 25+ 个值得关注的开放权重模型，涵盖语言、视觉、音频多个模态。开源 AI 的供给侧正在从"有就不错"变成"多到挑花眼"。(1,837 likes | 276 RTs) 详情 →

Meta 确认数千 Instagram 账号通过 AI 客服机器人被黑。

Meta 正式确认，攻击者利用其 AI 客服聊天机器人的漏洞，成功劫持了数千个 Instagram 账号。这不是假设性的攻击场景 — 是真实的大规模安全事件。如果你的产品里有 AI 驱动的客服或账户管理功能，现在就该审计一遍攻击面。(349 likes | 127 RTs) 详情 →

Gemini Pro 掉队了？Google 的更新节奏明显放缓。 Mollick 指出 Gemini Pro 自二月以来没有重大更新，而 Claude 和 GPT 持续快速迭代。frontier 模型正在分化成两个梯队 — 选模型时，迭代速度和当前跑分一样重要。(757 likes | 24 RTs) 详情 →

Anthropic 工程师每季度代码产出提升 8 倍。 来自 Anthropic 内部数据的硬指标 — 对比 2021-2025 年，工程师的代码产出翻了 8 倍。AI 辅助开发不再是"可能提效"，而是"已经在提效"。你的团队测过自己的 AI 加速比吗？(4,602 likes | 348 RTs) 详情 →

Jitendra Malik 对转行机器人的 CV 研究者说：别只盯着感知。 计算机视觉奠基人之一 Jitendra Malik 的建议被 LeCun 转发 — 做机器人不能只做感知，规划和控制才是瓶颈。随着越来越多 CV 研究者转向具身智能，这个忠告很及时。(2,126 likes | 242 RTs) 详情 →

Token 成本才是 SaaS 的护城河 — AI 不会杀死所有软件。 HuggingFace CEO Clément Delangue 提出一个反直觉论点：好的开发工具本质上是"缓存好的智能"，Agent 每次从头推理要付 token 费，而 SaaS 工具把这些智能固化了。"AI 杀死 SaaS" 的叙事忽略了经济学。(442 likes | 70 RTs) 详情 →

🎓 模型小课堂

状态外置（State Externalization）在 Agent 架构中的作用：传统的 AI Agent 把所有工作记忆都塞进上下文窗口 — 对话历史、中间结果、搜索记录全堆在一起，窗口越来越挤，效果越来越差。状态外置的思路很简单：把不需要实时推理的信息卸载到外部存储（数据库、文件系统、向量库），模型只保留当前步骤最需要的信息。Harness-1 用这个方法让 200 亿参数的模型在长程搜索任务上打出了 frontier 级成绩。当开源模型的基础能力越来越强，怎么设计 Agent 架构可能比选哪个模型更关键。

⚡ 快讯

Anthropic Python SDK v0.107.0：新增 Managed Agents 类型更新，Agent 平台 API 持续演进。链接
Anthropic TypeScript SDK v0.102.0：同步更新 Managed Agents 类型，修复中间件在请求签名前执行的 bug，Bedrock/Vertex 用户注意升级。链接
YC 工具声称"代码不出本机"实则发送到 LLM 代理：安全研究者发现一款 YC 支持的 AI 编码分析工具会把代码片段、文件路径和编辑 diff 发送到外部 LLM 代理。用 AI 开发工具前，先抓个包看看。(40 likes) 链接
S&P 500 盈利门槛挡住 OpenAI、Anthropic 和 SpaceX：标普 500 的盈利性要求让这些巨头暂时无缘指数。Frontier AI 公司估值百亿，但仍在烧钱。(1,339 likes | 464 RTs) 链接
有团队宣称 100% AI 写代码、AI 审代码、AI 管部署：信不信由你，但这就是激进采用者的方向。(837 likes) 链接
MisoTTS：新的开源 TTS 模型在 HuggingFace 上获得关注，开源语音合成赛道持续升温。(109 likes) 链接

🎯 今日精选

Harness-1 用 20B 参数打出 frontier 级搜索 — 下一代 Agent 的突破口不在上下文窗口：过去两年，AI 行业的主旋律是"更大的上下文窗口" — 从 8K 到 128K 再到百万 token。但 Harness-1 用一个完全不同的思路证明了另一条路：与其把所有东西塞进模型的"脑子"里，不如让模型学会用"笔记本"。通过将工作记忆外置到外部存储，一个 200 亿参数的模型在长程搜索任务上匹敌了参数量大十倍的 frontier 模型。这恰好发生在开源模型井喷的一周 — 当 25+ 个能力不俗的开放权重模型涌入市场，基础模型不再稀缺，真正的差异化将来自架构设计和工程能力。Harness-1 的启示很清晰：Agent 的下一个飞跃不是来自更大的上下文窗口，而是来自重新思考模型到底需要"记住"什么。详情 →

下期见 ✌️