Harness-1:20B 参数跑出 frontier 级搜索能力
🧠 发布动态
Harness-1:20B 参数跑出 frontier 级搜索能力。
这可能是本周最值得关注的技术突破 — Harness-1 只有 200 亿参数,却在长程搜索任务上达到了 frontier 模型的水平。秘诀不是堆参数,而是"状态外置"(State Externalization):把工作记忆卸载到外部存储,而不是硬塞进上下文窗口。这意味着小模型 + 聪明的架构设计 = 大模型的效果。对于资源有限但想做 Agent 的团队,这是一个信号:别只盯着参数量。(710 likes | 81 RTs) 详情 →
Claude Cowork 用量翻倍,持续一个月。 Anthropic 宣布 Claude Cowork 限额加倍,有效期一个月。如果你一直在等一个大项目的窗口期,现在就是最好的时机 — 把你最吃 token 的任务排上来。(12,199 likes | 761 RTs) 详情 →
NVIDIA 全面开源旗舰 AI 模型 — 权重、数据、训练方法一个不留。 Jensen Huang 这次诚意十足:模型权重、训练数据、训练方法论全部公开。四层透明度在商业 AI 公司中几乎没有先例。开源社区又多了一个重量级选手。(66 likes | 21 RTs) 详情 →
Google Magenta Realtime 2 上线 HuggingFace,下载量破万。 Google Magenta 团队推出实时文本转音频模型,上线不到两天就拿下近 1 万次下载。生成式音频赛道又热了一把。(108 likes | 9.4K downloads) 详情 →
🔧 开发者工具
Claude Code v2.1.166 新增 fallback 模型和 glob deny 规则:这版更新含金量不低 — fallbackModel 让你最多配 3 个备用模型,高峰期主模型过载时自动切换,再也不用干等。glob deny 规则则补上了安全短板,可以精确控制 Agent 能碰哪些文件。运维和安全团队都该看看。 详情 →
Ollama v0.30.6:IDE Agent 集成 + Apple Silicon 量化优化。 Ollama 新增 Oh My Pi(AI 编码 Agent)原生集成,支持直接在 IDE 里用本地模型跑 Agent。同时 Apple Silicon 上的 MLX 量化(NVFP4)进一步优化。本地 AI 开发的体验越来越像在线服务了。 详情 →
📝 技术实战
Anthropic 的决策框架:什么时候用 Agent Teams,什么时候用 Workflows? Mollick 分享了 Anthropic 的多 Agent 架构决策图表 — 单 Agent、Workflow、还是 Agent Teams,取决于任务的复杂度和协作需求。随着多 Agent 模式变成主流,这张图值得贴在工位上。(469 likes | 52 RTs) 详情 →
问号技巧:为什么在指令末尾加个"?"比 Plan Mode 更好用? swyx 分享了一个简单但有效的 prompting 技巧 — 把任务指令改成问句,模型就会先评估方案、提出替代建议,而不是闷头执行。一个问号的区别,输出质量差了一截。(246 likes | 12 RTs) 详情 →
🔬 研究前沿
Anthropic 公开递归自我改进(RSI)内部数据 — Claude 正在加速 AI 开发。
这是本周 AI 安全领域最重磅的消息:Anthropic 发布内部数据,展示 Claude 如何加速自身的研发过程。RSI 不再是理论假设 — Anthropic 用真实数据证明它正在发生。不管你对 AI 安全持什么立场,这份报告都该认真读一遍。(27,830 likes | 4,539 RTs) 详情 →
Sakana AI 成立全球首个递归自我改进专属实验室。 日本 Sakana AI 宣布成立专门研究 RSI 的实验室 — 这是第一个明确以"开放式自我改进 AI"为使命的研究机构。与 Anthropic 的数据发布呼应,RSI 正在从边缘话题变成前沿研究的核心方向。(490 likes | 55 RTs) 详情 →
Gemma 4 的 QAT 为什么比训后量化保留更多质量? Google 官方博客详细解释了 Gemma 4 的量化感知训练(QAT)— 在训练过程中就模拟量化误差,而不是训完再压缩。结果是在手机和笔记本上跑出更接近全精度的效果。想在端侧部署模型的,QAT 检查点比 GPTQ/AWQ 更值得试。(235 likes | 78 RTs) 详情 →
💡 行业洞察
开源模型最疯狂的一周:7 天内 25+ 个模型密集发布。
这不是某一家的发布会 — 而是整个行业的集体行动。HuggingFace 统计了过去一周内涌现的 25+ 个值得关注的开放权重模型,涵盖语言、视觉、音频多个模态。开源 AI 的供给侧正在从"有就不错"变成"多到挑花眼"。(1,837 likes | 276 RTs) 详情 →
Meta 确认数千 Instagram 账号通过 AI 客服机器人被黑。
Meta 正式确认,攻击者利用其 AI 客服聊天机器人的漏洞,成功劫持了数千个 Instagram 账号。这不是假设性的攻击场景 — 是真实的大规模安全事件。如果你的产品里有 AI 驱动的客服或账户管理功能,现在就该审计一遍攻击面。(349 likes | 127 RTs) 详情 →
Gemini Pro 掉队了?Google 的更新节奏明显放缓。 Mollick 指出 Gemini Pro 自二月以来没有重大更新,而 Claude 和 GPT 持续快速迭代。frontier 模型正在分化成两个梯队 — 选模型时,迭代速度和当前跑分一样重要。(757 likes | 24 RTs) 详情 →
Anthropic 工程师每季度代码产出提升 8 倍。 来自 Anthropic 内部数据的硬指标 — 对比 2021-2025 年,工程师的代码产出翻了 8 倍。AI 辅助开发不再是"可能提效",而是"已经在提效"。你的团队测过自己的 AI 加速比吗?(4,602 likes | 348 RTs) 详情 →
Jitendra Malik 对转行机器人的 CV 研究者说:别只盯着感知。 计算机视觉奠基人之一 Jitendra Malik 的建议被 LeCun 转发 — 做机器人不能只做感知,规划和控制才是瓶颈。随着越来越多 CV 研究者转向具身智能,这个忠告很及时。(2,126 likes | 242 RTs) 详情 →
Token 成本才是 SaaS 的护城河 — AI 不会杀死所有软件。 HuggingFace CEO Clément Delangue 提出一个反直觉论点:好的开发工具本质上是"缓存好的智能",Agent 每次从头推理要付 token 费,而 SaaS 工具把这些智能固化了。"AI 杀死 SaaS" 的叙事忽略了经济学。(442 likes | 70 RTs) 详情 →
🎓 模型小课堂
状态外置(State Externalization)在 Agent 架构中的作用:传统的 AI Agent 把所有工作记忆都塞进上下文窗口 — 对话历史、中间结果、搜索记录全堆在一起,窗口越来越挤,效果越来越差。状态外置的思路很简单:把不需要实时推理的信息卸载到外部存储(数据库、文件系统、向量库),模型只保留当前步骤最需要的信息。Harness-1 用这个方法让 200 亿参数的模型在长程搜索任务上打出了 frontier 级成绩。当开源模型的基础能力越来越强,怎么设计 Agent 架构可能比选哪个模型更关键。
⚡ 快讯
- Anthropic Python SDK v0.107.0:新增 Managed Agents 类型更新,Agent 平台 API 持续演进。 链接
- Anthropic TypeScript SDK v0.102.0:同步更新 Managed Agents 类型,修复中间件在请求签名前执行的 bug,Bedrock/Vertex 用户注意升级。 链接
- YC 工具声称"代码不出本机"实则发送到 LLM 代理:安全研究者发现一款 YC 支持的 AI 编码分析工具会把代码片段、文件路径和编辑 diff 发送到外部 LLM 代理。用 AI 开发工具前,先抓个包看看。(40 likes) 链接
- S&P 500 盈利门槛挡住 OpenAI、Anthropic 和 SpaceX:标普 500 的盈利性要求让这些巨头暂时无缘指数。Frontier AI 公司估值百亿,但仍在烧钱。(1,339 likes | 464 RTs) 链接
- 有团队宣称 100% AI 写代码、AI 审代码、AI 管部署:信不信由你,但这就是激进采用者的方向。(837 likes) 链接
- MisoTTS:新的开源 TTS 模型在 HuggingFace 上获得关注,开源语音合成赛道持续升温。(109 likes) 链接
🎯 今日精选
Harness-1 用 20B 参数打出 frontier 级搜索 — 下一代 Agent 的突破口不在上下文窗口:过去两年,AI 行业的主旋律是"更大的上下文窗口" — 从 8K 到 128K 再到百万 token。但 Harness-1 用一个完全不同的思路证明了另一条路:与其把所有东西塞进模型的"脑子"里,不如让模型学会用"笔记本"。通过将工作记忆外置到外部存储,一个 200 亿参数的模型在长程搜索任务上匹敌了参数量大十倍的 frontier 模型。这恰好发生在开源模型井喷的一周 — 当 25+ 个能力不俗的开放权重模型涌入市场,基础模型不再稀缺,真正的差异化将来自架构设计和工程能力。Harness-1 的启示很清晰:Agent 的下一个飞跃不是来自更大的上下文窗口,而是来自重新思考模型到底需要"记住"什么。 详情 →
下期见 ✌️