NewsletterBlogLearnCompareTopicsGlossary
English
LAUNCHINSIGHTTOOLTECHNIQUERESEARCHBUILD

23 条资讯

Claude Code 上线 Agent View:一个面板管所有 AI 会话

🧠 发布动态

Claude Code 上线 Agent View:一个面板管所有 AI 会话。

终于来了 — 运行 claude agents 就能看到所有正在跑的 Claude Code 会话,状态、进度、日志一目了然。这不是花哨的 UI,而是多 Agent 工作流的基础设施:当你同时让三个 Agent 分头改代码、跑测试、写文档时,你需要一个地方看全局。作为 Research Preview 发布,官方推文 10,169 likes,是 Claude Code 有史以来互动最高的功能发布。(10,169 likes | 640 RTs) 详情 →

Anthropic 在 AWS 上线原生 Claude API — 不走 Bedrock。

AWS 客户现在可以直接用 Claude 的 Messages API、Files API、Managed Agents 和代码执行,走 AWS 计费和 IAM 认证。关键词是"原生" — 不再受 Bedrock 的功能滞后和 API 差异限制。对那些因为 Bedrock 限制而没法用 Claude 全部能力的企业团队来说,这是个解锁。 详情 →

OpenAI 发布 Daybreak:用 frontier 模型武装网络防御。 OpenAI 把前沿模型、Codex 和安全合作伙伴打包成网络安全方案。几天前 Anthropic 刚发了 Mythos 渗透测试结果,现在 OpenAI 跟进 — frontier lab 正在抢占网络安全这个垂直赛道。(4,630 likes | 458 RTs) 详情 →

Qwen 发布 WebWorld:专为 Web Agent 打造的开源模型。 8B/14B/32B 三个规格,Apache 2.0 协议,MiniWob++ 上比前代开源模型高 9.9%,WebArena 高 10%。Web 自动化一直是闭源 API 的天下,现在终于有了能打的开源选手。国内开发者可以直接拿 8B 版本跑起来试试。(441 likes | 69 RTs) 详情 →

MiniCPM-V-4.6 继续小模型多模态路线。 OpenBMB 更新了 MiniCPM 视觉语言模型,这个系列一贯特点是小身材大能量 — 参数量不大但多模态跑分一直超预期。适合端侧部署和资源受限场景。(179 likes) 详情 →


🔧 开发者工具

Claude Code v2.1.139:/goal 让单会话变自主循环。

除了 Agent View,这个版本还加了 /goal 命令 — 设定一个完成条件,Claude 会跨多轮持续工作直到达标。支持交互模式、-p 参数和 Remote Control。Agent View + /goal 组合起来,Claude Code 从"高级补全工具"正式进化为多 Agent 编排器。 详情 →

Codex 接入 OpenAI 原生插件。 现在可以在 Codex 里直接调用 OpenAI API,不用再在文档和编辑器之间来回复制粘贴。对 OpenAI 技术栈的开发者来说是个实打实的效率提升。(1,580 likes | 109 RTs) 详情 →

Anthropic Python SDK v0.101.0 新增 AWS 客户端。 配合上面的 AWS 原生 Claude 平台,SDK 层面的支持同步到位了 — 生产代码可以直接用。 详情 →


📝 技术实战

Karpathy 验证:让 LLM 输出 HTML 是正确的。

9,452 likes 不是没原因的 — Karpathy 建议直接让 LLM 把回答结构化为 HTML,用来做幻灯片、可视化、结构化文档。这和 swyx 上周的"HTML 是新 Markdown"论点一脉相承,但 Karpathy 给出了更直接的实操建议。下次写 prompt 试试加一句"structure your response as HTML"。(9,452 likes | 894 RTs) 详情 →

Simon Willison 把 LLM 塞进了 Unix Shebang 行。 用他的 LLM CLI 工具做 shebang 解释器,意味着你可以写一个纯英文的可执行脚本,或者挂 YAML 模板。hack 虽小,但对脚本化工作流的想象空间不小。(233 likes | 12 RTs) 详情 →

Agentic Search 就是 80% 的 Context Engineering。 Leonie 的 workshop 核心论点:大多数 Agent 失败不是推理失败,而是检索失败 — 没把对的信息放进上下文窗口。覆盖了 shell 工具、语义搜索、查询执行等全套工具链,讲清了每种工具在什么场景下会崩。(237 likes | 36 RTs) 详情 →


🔬 研究前沿

Mollick 指出 AI 的创意趋同问题。 AI 模型倾向于收敛到相似的想法,这对科学研究和创意工作是个根本性限制。好消息是新论文表明可以专门针对创造力优化模型 — 但主流 lab 目前都没在这个维度上发力。(357 likes | 44 RTs) 详情 →

Lilian Weng 揭秘训练日志:12 个版本,137 页。 OpenAI 的 Lilian Weng 分享了一次训练的幕后 — 12 轮迭代、137 页文档记录。这不是在秀数字,而是在说:frontier 模型训练本质上是密集的人-人协作工程,不是按个按钮等结果。难得的一线视角。(268 likes | 16 RTs) 详情 →


💡 行业洞察

OpenAI 成立部署子公司,要拿下企业最后一公里。

OpenAI 联合 19 家投资机构和咨询公司成立控股子公司,专门帮企业落地 AI 部署。这是一个战略转向信号 — 光卖 API 拿不下企业市场,真正的利润在集成和部署的"最后一公里"。从"最好的模型赢"变成"最好的部署伙伴赢",竞争逻辑变了。(8,073 likes | 956 RTs) 详情 →

谷歌确认:犯罪黑客已经用 AI 发现了重大漏洞。 纽约时报报道,从理论风险到已确认的真实利用。这直接验证了 OpenAI Daybreak 和 Anthropic Mythos 安全工作的紧迫性 — AI 攻防不再是假设场景。(96 likes | 68 RTs) 详情 →

Gemini Flash 3.2 基本确认将在 Google I/O 发布。 Bindureddy 透露他们已经在 70% 的定时任务中用 Flash 替换了 GPT 5.5 low。如果 Flash 3.2 能全面替代 GPT 5.5 low,高并发推理的性价比格局会大变。(217 likes | 5 RTs) 详情 →


🏗️ 值得一试

用 Swift 训练 LLM:矩阵乘法从 Gflop/s 到 Tflop/s。 一篇硬核技术文章,手把手带你在 Swift 里实现 LLM 训练,把矩阵乘法从千兆浮点优化到万亿浮点。如果你好奇 PyTorch 抽象层下面到底发生了什么,这篇值得花时间读。(209 likes | 11 RTs) 详情 →


🎓 模型小课堂

Context Engineering(上下文工程):今天 Agent View 的发布和 Agentic Search 的讨论,底层解决的其实是同一个问题 — 怎么在对的时机把对的信息送进对的上下文窗口。Context Engineering 就是结构化、筛选和压缩信息供大语言模型(LLM)消费的过程。多会话 Agent 之所以需要仪表板,是因为每个会话的上下文都在独立演化,你需要全局视图来协调。而大多数 Agent 失败不是模型推理不行,是上下文里根本没有解决问题所需的信息。上下文工程做得好不好,直接决定了 Agent 靠不靠谱。


⚡ 快讯

  • Agent View 推文:Claude Code 官方推文 10K likes,史上最高互动。 链接
  • Claude 宪法有声书:Amanda Askell 和 Joe Carlsmith 亲自朗读并解读 Claude 的设计哲学。(1,907 likes | 224 RTs) 链接
  • Consensus 融资 $30M:250 万研究者在用,从学术工具走向主流研究基础设施。(207 likes | 55 RTs) 链接
  • 资本才是 AI 真正的瓶颈:McKinsey 预测 2030 年数据中心需求 156GW,投资缺口高达 $7T。 链接
  • LangChain Core 1.4.0:Pydantic v1 导入修复和依赖更新,1.x 线趋于稳定。 链接
  • Interfaze:新 Transformer 变体,声称在大规模场景下精度更优,待同行验证。(100 likes | 27 RTs) 链接

🎯 今日精选

OpenAI 成立部署子公司 — API 收入撑不起企业野心:OpenAI 拉着 19 家投资和咨询机构成立控股子公司专做企业 AI 部署,这个动作的信号比表面看起来大得多。它说明 OpenAI 内部已经认定:光靠卖 API 抓不住企业客户的真金白银,真正的利润藏在集成、定制、落地的最后一公里。这从根本上改变了竞争格局 — 不再是"谁的模型跑分高谁赢",而是"谁能帮企业把 AI 用起来谁赢"。对 Anthropic、Google 来说,这是一个需要回应的战略信号;对企业买家来说,选 AI 供应商的标准从"模型能力"扩展到了"部署能力 + 生态支持"。 详情 →


下期见 ✌️