NewsletterBlogGlossary
LAUNCHTOOLRESEARCHBUILDINSIGHTTECHNIQUE

22 条资讯

Claude 非高峰时段用量翻倍,持续到 3 月 27 日

🧠 发布动态

Claude 非高峰时段用量翻倍,持续到 3 月 27 日。

Anthropic 给所有 Claude 用户送了份大礼 — 周末和工作日非高峰时段,claude.ai、Cowork、Claude Code 用量全部 2x。这不是降价,是直接多给你一倍额度。重度用户把跑批、长文生成、代码重构挪到非高峰时段,白捡的算力不用白不用。(43,323 likes | 3,122 RTs) 详情 →

百万 token 上下文正式 GA — 不加价。

Claude Opus 4.6Sonnet 4.6 的 100 万 token 上下文窗口从预览转正式发布,Max/Team/Enterprise 计划直接包含,不额外收费。长上下文的价格溢价时代结束了。整个代码库、完整法律文档、几百页研报 — 塞进去就行。(24,782 likes | 1,987 RTs) 详情 →

Anthropic 投一亿美金建 Claude 合作伙伴网络。

不只是卷模型了 — Anthropic 拿出 $1 亿建设 Claude Partner Network,信号很明确:企业分发战的核心已经从模型质量转向集成和渠道。如果你在 Claude 上构建产品,现在是认真看看合作伙伴计划的时候。详情 →

GPT-5.3-Codex 落地 Codex 产品。

OpenAIGPT-5.3-Codex 接入了 Codex 编码环境 — 专用编码模型 + Agent 编码环境的组合,直接对标 Claude Code + Opus。两家都在赌"模型+编排"一体化是未来。开发者多了一个认真选择。(10,766 likes | 1,456 RTs) 详情 →

Qwen3.5-122B 来了:前沿知识,中端成本。 阿里 Qwen 团队发布 122B MoE 模型,但只激活 10B 参数 — 意味着你用中端推理价格就能跑前沿级别的知识量。438K 下载量说明市场已经投票了。国产开源模型的性价比牌越打越狠。(435 likes | 438.9K downloads) 详情 →

Gemini 让 Google Maps 学会多步推理。 不是加个搜索框 — Google 用 Gemini 让 Maps 处理复杂自然语言查询,跨 3 亿+社区照片和评论进行推理。"找一家离酒店 15 分钟内、有户外座位、评价里提到安静的意大利餐厅" — 这种查询现在能答了。LLM 改善十亿级用户产品的最清晰案例之一。(486 likes | 66 RTs) 详情 →


🔧 开发者工具

Claude Code 现在能从手机启动了:不是远程桌面 — 是直接从手机生成和管理笔记本电脑上的 Claude Code 会话。沙发上想到一个重构思路?掏手机启动,回到电脑看结果。把闲置算力变成生产力。(4,576 likes | 269 RTs) 详情 →

GLM-OCR 下载量突破 260 万。 智谱 AI 的专用 OCR 模型在 HuggingFace 上爆了 — 如果你在做文档提取、票据识别、PDF 解析,拿来跟现有管线跑个对比。国产模型在垂直场景的实力不容小觑。(1,248 likes | 2.61M downloads) 详情 →

NVIDIA NeMo Retriever 进化到 Agent 检索。 不再只是语义相似度匹配 — NeMo Retriever 现在能主动规划和执行多步搜索策略。如果你的向量搜索已经撞到天花板,这是一个实用的升级路径。详情 →


📝 技术实战

MCP 的隐藏 token 税:为什么 CLI 可能更香。

一条病毒式传播的帖子揭露了 MCP 的成本陷阱:每个连接的 MCP 服务器在每轮对话都会加载全部工具定义,token 开销巨大。工具 mcp2cli 声称通过将 MCP 服务器转为按需 CLI 命令,节省 96-99% 的 token。如果你在用 MCP,现在就审计一下你的 token 开销。(520 likes | 33 RTs) 详情 →

后 RAG 时代的检索架构:Turbopuffer 的 Simon Hørup Eskildsen 拆解了检索架构如何从朴素 RAG 进化 — 混合搜索、Agent 检索模式、数据库设计。如果你的 RAG 管线已经"够用但不够好",这篇是升级路线图。详情 →

你的 Agent 拿着你的凭证在浏览网页:一篇详细拆解 prompt injection 如何攻击有真实凭证的 AI Agent。网页里藏指令,Agent 带着你的 API key 去执行 — 这不是假设场景,是现实威胁。部署了带工具调用的 Agent?这是你的必读威胁模型。(13 likes) 详情 →


🔬 研究前沿

GPT-5.4 在 CursorBench 登顶,而且更省 token。 OpenAI 的 GPT-5.4 在编码正确性上领先,同时比竞品用更少的 token — 这说明 OpenAI 在优化"每个正确补全的成本"这个对编码 Agent 真正重要的指标。跑分高不稀奇,又准又省才是本事。(899 likes | 58 RTs) 详情 →

PostTrainBench:AI Agent 能自动做 RLHF 吗? 一个新基准测试前沿 AI Agent 能否处理完整的后训练流程 — RLHF、DPO(直接偏好优化)、评估和迭代。测的是 Agent 能否自动化"让模型变好用"的那些工作。(653 likes | 87 RTs) 详情 →


💡 行业洞察

Carmack:开源代码本来就是送给世界的礼物。 John Carmack 在开源 vs AI 训练的争论中亮出态度:他写的百万行开源代码是送给人类的礼物,用来训练 AI 完全符合这个初衷。作为开源运动最有分量的声音之一,这个表态值得每个开源贡献者思考。(3,302 likes | 317 RTs) 详情 →

前沿 AI 正在变成三家的游戏。 Ethan Mollick 根据 Grok 4.2 跑分和近期报道判断:前沿 AI 已经收敛为 Anthropic、OpenAI、Google 的三方竞赛,xAI 和 Meta 在掉队。做技术选型的,该把竞争格局纳入你的模型策略了。(726 likes | 41 RTs) 详情 →


🏗️ 值得一试

浏览器内实时视频字幕生成:Liquid AI 的 LFM2-VL 模型通过 WebGPU 在浏览器里跑实时视频字幕 — 不需要服务器。这证明有意义的视觉模型已经能跑在客户端了,隐私敏感的视频分析场景有了新可能。(322 likes | 45 RTs) 详情 →

Shopify CEO 用 AI 优化了他 20 年前写的模板引擎。 Tobi Lütke 用 AI 辅助的 autoresearch 方法优化 Liquid 模板引擎 — 解析速度提升 53%,内存分配减少 61%。成熟生产代码 + AI = 意想不到的性能提升。(698 likes | 47 RTs) 详情 →


🎓 模型小课堂

上下文窗口 vs 有效上下文(Context Window vs. Effective Context):Claude 百万 token 上下文正式发布听起来像是"长上下文问题已解决",但研究反复表明,模型在远未达到标称上限时就开始在"大海捞针"任务上表现退化。100 万 token 的窗口不等于 100 万 token 都同样可靠 — 信息放在上下文的开头和结尾通常比中间更容易被检索到。设计 RAG vs 长上下文架构时,理解"标称上下文"和"有效上下文"之间的差距至关重要:关键信息的位置和结构化方式,可能比窗口大小本身更重要。


⚡ 快讯

  • GPT-5.4 图像编码器修复:OpenAI 悄悄修了 GPT-5.4 的图像编码器 bug,视觉理解质量提升。用图像输入的重新测一下。(1,028 likes) 链接
  • AI VC 的隐含赌注:Ethan Mollick 指出,5-8 年退出周期意味着大多数 AI 投资本质上在赌 Anthropic/OpenAI/Google 实现不了他们的愿景。(645 likes) 链接
  • Sakana AI 拿下日本防卫省合同:多模态情报分析,主权 AI 能力正在成为国家安全优先级。(421 likes) 链接
  • gigabrain v0.5.3:跨 Claude Code、Codex、OpenClaw 的统一持久记忆层,切换工具不再丢上下文。(145 likes) 链接

🎯 今日精选

MCP 的隐藏成本揭示了一个行业问题:我们在解决经济性之前就标准化了集成协议。 MCP 作为 AI 工具集成的事实标准被快速采用,但一个关键问题被忽视了 — 每个连接的 MCP 服务器在每轮对话中都加载全部工具定义,token 开销惊人。mcp2cli 等工具声称通过转为按需 CLI 命令节省 96-99% 的 token,这个数字本身就说明问题的严重性。更深层的启示是:真正的 MCP 替代品可能不是一个更好的协议,而是根本不用协议。当 CLI 命令就能完成工作时,为什么要付协议税?这让人想起软件工程中反复出现的模式 — 先标准化再优化的路径往往导致不必要的复杂性。对正在构建 Agent 工具链的开发者来说,现在是审计你的 MCP token 开销的好时机。 详情 →


下期见 ✌️