Claude 非高峰时段用量翻倍，持续到 3 月 27 日

🧠 发布动态

Claude 非高峰时段用量翻倍，持续到 3 月 27 日。

Anthropic 给所有 Claude 用户送了份大礼 — 周末和工作日非高峰时段，claude.ai、Cowork、Claude Code 用量全部 2x。这不是降价，是直接多给你一倍额度。重度用户把跑批、长文生成、代码重构挪到非高峰时段，白捡的算力不用白不用。(43,323 likes | 3,122 RTs) 详情 →

百万 token 上下文正式 GA — 不加价。

Claude Opus 4.6 和 Sonnet 4.6 的 100 万 token 上下文窗口从预览转正式发布，Max/Team/Enterprise 计划直接包含，不额外收费。长上下文的价格溢价时代结束了。整个代码库、完整法律文档、几百页研报 — 塞进去就行。(24,782 likes | 1,987 RTs) 详情 →

Anthropic 投一亿美金建 Claude 合作伙伴网络。

不只是卷模型了 — Anthropic 拿出 $1 亿建设 Claude Partner Network，信号很明确：企业分发战的核心已经从模型质量转向集成和渠道。如果你在 Claude 上构建产品，现在是认真看看合作伙伴计划的时候。详情 →

GPT-5.3-Codex 落地 Codex 产品。

OpenAI 把 GPT-5.3-Codex 接入了 Codex 编码环境 — 专用编码模型 + Agent 编码环境的组合，直接对标 Claude Code + Opus。两家都在赌"模型+编排"一体化是未来。开发者多了一个认真选择。(10,766 likes | 1,456 RTs) 详情 →

Qwen3.5-122B 来了：前沿知识，中端成本。 阿里 Qwen 团队发布 122B MoE 模型，但只激活 10B 参数 — 意味着你用中端推理价格就能跑前沿级别的知识量。438K 下载量说明市场已经投票了。国产开源模型的性价比牌越打越狠。(435 likes | 438.9K downloads) 详情 →

Gemini 让 Google Maps 学会多步推理。 不是加个搜索框 — Google 用 Gemini 让 Maps 处理复杂自然语言查询，跨 3 亿+社区照片和评论进行推理。"找一家离酒店 15 分钟内、有户外座位、评价里提到安静的意大利餐厅" — 这种查询现在能答了。LLM 改善十亿级用户产品的最清晰案例之一。(486 likes | 66 RTs) 详情 →

🔧 开发者工具

Claude Code 现在能从手机启动了：不是远程桌面 — 是直接从手机生成和管理笔记本电脑上的 Claude Code 会话。沙发上想到一个重构思路？掏手机启动，回到电脑看结果。把闲置算力变成生产力。(4,576 likes | 269 RTs) 详情 →

GLM-OCR 下载量突破 260 万。 智谱 AI 的专用 OCR 模型在 HuggingFace 上爆了 — 如果你在做文档提取、票据识别、PDF 解析，拿来跟现有管线跑个对比。国产模型在垂直场景的实力不容小觑。(1,248 likes | 2.61M downloads) 详情 →

NVIDIA NeMo Retriever 进化到 Agent 检索。 不再只是语义相似度匹配 — NeMo Retriever 现在能主动规划和执行多步搜索策略。如果你的向量搜索已经撞到天花板，这是一个实用的升级路径。详情 →

📝 技术实战

MCP 的隐藏 token 税：为什么 CLI 可能更香。

一条病毒式传播的帖子揭露了 MCP 的成本陷阱：每个连接的 MCP 服务器在每轮对话都会加载全部工具定义，token 开销巨大。工具 mcp2cli 声称通过将 MCP 服务器转为按需 CLI 命令，节省 96-99% 的 token。如果你在用 MCP，现在就审计一下你的 token 开销。(520 likes | 33 RTs) 详情 →

后 RAG 时代的检索架构：Turbopuffer 的 Simon Hørup Eskildsen 拆解了检索架构如何从朴素 RAG 进化 — 混合搜索、Agent 检索模式、数据库设计。如果你的 RAG 管线已经"够用但不够好"，这篇是升级路线图。详情 →

你的 Agent 拿着你的凭证在浏览网页：一篇详细拆解 prompt injection 如何攻击有真实凭证的 AI Agent。网页里藏指令，Agent 带着你的 API key 去执行 — 这不是假设场景，是现实威胁。部署了带工具调用的 Agent？这是你的必读威胁模型。(13 likes) 详情 →

🔬 研究前沿

GPT-5.4 在 CursorBench 登顶，而且更省 token。 OpenAI 的 GPT-5.4 在编码正确性上领先，同时比竞品用更少的 token — 这说明 OpenAI 在优化"每个正确补全的成本"这个对编码 Agent 真正重要的指标。跑分高不稀奇，又准又省才是本事。(899 likes | 58 RTs) 详情 →

PostTrainBench：AI Agent 能自动做 RLHF 吗？ 一个新基准测试前沿 AI Agent 能否处理完整的后训练流程 — RLHF、DPO（直接偏好优化）、评估和迭代。测的是 Agent 能否自动化"让模型变好用"的那些工作。(653 likes | 87 RTs) 详情 →

💡 行业洞察

Carmack：开源代码本来就是送给世界的礼物。 John Carmack 在开源 vs AI 训练的争论中亮出态度：他写的百万行开源代码是送给人类的礼物，用来训练 AI 完全符合这个初衷。作为开源运动最有分量的声音之一，这个表态值得每个开源贡献者思考。(3,302 likes | 317 RTs) 详情 →

前沿 AI 正在变成三家的游戏。 Ethan Mollick 根据 Grok 4.2 跑分和近期报道判断：前沿 AI 已经收敛为 Anthropic、OpenAI、Google 的三方竞赛，xAI 和 Meta 在掉队。做技术选型的，该把竞争格局纳入你的模型策略了。(726 likes | 41 RTs) 详情 →

🏗️ 值得一试

浏览器内实时视频字幕生成：Liquid AI 的 LFM2-VL 模型通过 WebGPU 在浏览器里跑实时视频字幕 — 不需要服务器。这证明有意义的视觉模型已经能跑在客户端了，隐私敏感的视频分析场景有了新可能。(322 likes | 45 RTs) 详情 →

Shopify CEO 用 AI 优化了他 20 年前写的模板引擎。 Tobi Lütke 用 AI 辅助的 autoresearch 方法优化 Liquid 模板引擎 — 解析速度提升 53%，内存分配减少 61%。成熟生产代码 + AI = 意想不到的性能提升。(698 likes | 47 RTs) 详情 →

🎓 模型小课堂

上下文窗口 vs 有效上下文（Context Window vs. Effective Context）：Claude 百万 token 上下文正式发布听起来像是"长上下文问题已解决"，但研究反复表明，模型在远未达到标称上限时就开始在"大海捞针"任务上表现退化。100 万 token 的窗口不等于 100 万 token 都同样可靠 — 信息放在上下文的开头和结尾通常比中间更容易被检索到。设计 RAG vs 长上下文架构时，理解"标称上下文"和"有效上下文"之间的差距至关重要：关键信息的位置和结构化方式，可能比窗口大小本身更重要。

⚡ 快讯

GPT-5.4 图像编码器修复：OpenAI 悄悄修了 GPT-5.4 的图像编码器 bug，视觉理解质量提升。用图像输入的重新测一下。(1,028 likes) 链接
AI VC 的隐含赌注：Ethan Mollick 指出，5-8 年退出周期意味着大多数 AI 投资本质上在赌 Anthropic/OpenAI/Google 实现不了他们的愿景。(645 likes) 链接
Sakana AI 拿下日本防卫省合同：多模态情报分析，主权 AI 能力正在成为国家安全优先级。(421 likes) 链接
gigabrain v0.5.3：跨 Claude Code、Codex、OpenClaw 的统一持久记忆层，切换工具不再丢上下文。(145 likes) 链接

🎯 今日精选

MCP 的隐藏成本揭示了一个行业问题：我们在解决经济性之前就标准化了集成协议。 MCP 作为 AI 工具集成的事实标准被快速采用，但一个关键问题被忽视了 — 每个连接的 MCP 服务器在每轮对话中都加载全部工具定义，token 开销惊人。mcp2cli 等工具声称通过转为按需 CLI 命令节省 96-99% 的 token，这个数字本身就说明问题的严重性。更深层的启示是：真正的 MCP 替代品可能不是一个更好的协议，而是根本不用协议。当 CLI 命令就能完成工作时，为什么要付协议税？这让人想起软件工程中反复出现的模式 — 先标准化再优化的路径往往导致不必要的复杂性。对正在构建 Agent 工具链的开发者来说，现在是审计你的 MCP token 开销的好时机。详情 →

下期见 ✌️