DeepSeek V4 来了 — 前沿性能，二十分之一的价格

🧠 发布动态

DeepSeek V4 来了 — 前沿性能，二十分之一的价格。

你的 API 账单可能要大幅缩水。DeepSeek V4 跑分直逼 Opus 4.7 和 GPT-5.5，但 token 价格只有 Opus 4.7 的 1/20。百万 token 上下文窗口专为 Agent 场景设计，这不是"便宜但凑合"，而是 MoE 架构带来的结构性成本优势。对中国开发者来说更是好消息 — 国产模型再次证明了在成本效率上的碾压能力。(4,047 likes | 309 RTs) 详情 →

GPT-5.5 正式开放 API — 同时也是史上最贵的前沿模型。

OpenAI 把 GPT-5.5 从 ChatGPT 独占推到了全面 API 可用，Pro 版定价 $30/百万输出 token，刷新了前沿模型的价格天花板。和 DeepSeek V4 同一天发布，一个走极致性价比，一个走极致定价 — 市场正在分化成两条路线。(4,189 likes | 214 RTs) 详情 →

DeepSeek V4-Pro 开源权重上线 HuggingFace。 Pro 版本直接放出权重下载，跑分对标 Opus 4.7 水平的模型你今天就能拉到本地跑。开源前沿又往前推了一大步。(2,415 likes | 30 downloads) 详情 →

OpenAI 发布临床医生专属 ChatGPT — 免费。 继垂直化产品策略后的第二个医疗落地：专为临床场景定制，对医生完全免费。这不是在赚钱，是在抢占医疗 AI 的入口。(4,620 likes | 534 RTs) 详情 →

谷歌一口气倒出一周的 Cloud Next AI 基建成果。 第八代 TPU（TPUt/TPUi）、企业级 Agent 平台、Gemini Embedding 2 GA、Agent 数据云、Workspace Intelligence — 这是谷歌有史以来最密集的一次 AI 基础设施发布。不是一个产品，是一整套生态升级。(100 likes | 16 RTs) 详情 →

💡 行业洞察

谷歌正在谈判向 Anthropic 注资高达 400 亿美元。

如果落地，这将是 AI 领域有史以来最大的单笔投资。彭博报道谷歌正在讨论的数字是 400 亿美元 — 这意味着 Anthropic 同时拿着亚马逊和谷歌两大云巨头的重注。竞争格局的底层逻辑正在改变：前沿模型公司不再是独立玩家，而是巨头博弈的筹码。(250 likes | 313 RTs) 详情 →

Anthropic 和亚马逊扩大合作，锁定 5 吉瓦新算力。 5 吉瓦是什么概念？够给一个中等城市供电。Anthropic 正在以数据中心城市级别的规模储备算力，和微软、谷歌正面竞争基础设施。详情 →

Meta 找 AWS 采购数千万个 Graviton 核心。 连 Meta 这种自建 GPU 集群最激进的公司，都开始向 AWS 外包算力了 — Agent 工作负载在数十亿用户规模下，自建也不够用。(1,018 likes | 79 RTs) 详情 →

马斯克诉 OpenAI 案下周一进入陪审团遴选。 AI 时代最大的法律战即将在奥克兰开庭 — 判决结果可能迫使 OpenAI 重组，影响其 3000 亿美元估值，并为 AI 公司的法人结构变更立下判例。详情 →

Anthropic 与 NEC 合作，打造日本最大 AI 工程师团队。 Anthropic 在亚洲最大企业 AI 市场的第一个重磅合作 — NEC 是日本最大的 IT 服务商，这标志着 Claude 正式进军日本企业市场。详情 →

🔬 研究前沿

Anthropic 的 Project Deal：Claude 在真实办公室市场里讨价还价。

这才是 Agent 能力的真正测试 — 不是跑分，而是真金白银。Anthropic 在旧金山办公室搭了个真实市场，让员工和 Claude 进行真实交易和谈判。结果揭示了 LLM 在经济行为中的实际表现：它们如何定价、让步、博弈。这是首个控制环境下的 AI 经济行为研究，比任何 benchmark 都更能说明 Agent 商业化的前景和风险。(3,772 likes | 251 RTs) 详情 →

OpenAI 为 GPT-5.5 设立专项生物安全漏洞赏金。 为单一模型发布做专门的生物安全红队测试，这是前所未有的。OpenAI 认为 GPT-5.5 的能力已经超出了常规安全审查的范畴，需要领域专家专项测试。(1,719 likes | 124 RTs) 详情 →

DeepMind 的 Decoupled DiLoCo：在不稳定的数据中心之间训练模型。 分布式训练的关键瓶颈是网络故障和跨数据中心延迟 — DeepMind 的新方法容忍这些问题，让训练规模突破单一集群的物理限制。(956 likes | 129 RTs) 详情 →

🔧 开发者工具

GPT-5.5 登顶 CursorBench — Cursor 当天就上线了集成。 Cursor 自家跑分给出 72.8% 的最高分，然后同一天就发布了集成。生态适配速度本身就在说明这个模型的分量。(3,508 likes | 163 RTs) 详情 →

Claude Code 网页版和移动端大更新。 界面全面刷新，桌面端新增文件浏览器（CMD+Shift+F），网页和手机端体验显著提升。质量复盘后的快速迭代还在继续。(1,752 likes | 76 RTs) 详情 →（延伸阅读：如何高效使用 Claude Code Prompt）

Anthropic 发布 Rate Limits API。 管理员现在可以通过 API 编程查询组织和工作区级别的速率限制 — 管理 API 预算、搭内部监控面板的团队终于不用手动查了。详情 →

Sakana AI 发布 Fugu：多智能体编排系统 beta 版。 以进化模型合并闻名的 Sakana 推出了第一个商业产品 — Fugu 定位在单 Agent 工具和 Anthropic Managed Agents 这样的全平台方案之间，走轻量级多 Agent 编排路线。(478 likes | 121 RTs) 详情 →

📝 技术实战

Claude Code Setup 插件：一键配置 Hooks、Skills 和 MCP。 Anthropic 官方出品 — 分析你的项目后自动推荐该激活哪些自动化能力，把 Claude Code 的 hooks、skills、MCP 集成的配置门槛从"读半天文档"降到"跑一条命令"。如果你一直想用 Claude Code 的高级功能但被配置劝退，这就是你等的东西。(1,445 likes | 141 RTs) 详情 →（延伸阅读：Claude Code Subagents 实战案例）

Qwen3.6-27B 在树莓派上现场写网页应用。 HuggingFace CEO 亲自演示 — 一个 27B 参数的前沿级模型在树莓派上实时编码。本地 AI 和云端 AI 的能力差距在边缘端持续收窄。对算力敏感的场景，本地部署正在变成现实选项。(3,440 likes | 283 RTs) 详情 →

🏗️ 值得一试

Superpowers：166K Star 的 Agent 技能框架。 把 Agent 开发中的"技能模式"（skills pattern）系统化成了可复用的方法论和框架。本月新冒出的 Agent 框架里人气最高的一个 — 166K star 还在涨。如果你在做 Agent 开发，去翻翻它的技能库，大概率能直接用。(166,764 likes | 14,657 RTs) 详情 →

🎓 模型小课堂

混合专家模型（MoE）与推理成本：DeepSeek V4 能以 Opus 4.7 二十分之一的价格达到前沿水平，核心秘密是 MoE（Mixture of Experts）架构。简单说：一个模型内部有很多"专家"子网络，但每次处理一个 token 时只激活其中一小部分。比如模型总共有 6000 亿参数，但每个 token 只用到 300 亿 — 算力开销大幅降低，但模型的总知识量不缩水。这就是为什么成本颠覆一次又一次地来自架构创新，而不仅仅是堆规模。理解了 MoE，你就能看懂为什么"便宜"和"强"不再矛盾。

⚡ 快讯

Transformers.js Chrome 扩展教程：手把手教你在浏览器扩展里跑 ML 模型 — 无服务器、无 API Key、离线可用。链接
Browser Harness：专为 LLM Agent 设计的开源浏览器自动化框架，比 Playwright 方案更轻量。(73 likes | 28 RTs) 链接
Anthropic TypeScript SDK v0.91.1：CMA 内存文件权限安全补丁 — 生产环境用了 Managed Agent Memory 的立即更新。链接

🎯 今日精选

Project Deal 揭示了 AI Agent 真正的考验不在跑分，而在真金白银的博弈：Anthropic 让 Claude 在办公室里运营一个真实市场 — 不是模拟，是员工拿真实物品和真实偏好参与的交易。结果发现，LLM 的议价行为和人类预期之间存在系统性差距：Claude 在某些场景下过于"公平"，在另一些场景下又表现出人类不会有的定价模式。这个实验揭示的核心问题是 — 当 AI Agent 开始参与真实经济活动，对齐问题不再是"说了什么不该说的话"，而是"它的经济行为是否符合人类委托人的利益"。这可能是 Agent 商业化道路上最大的未解难题，比任何技术 benchmark 都更值得关注。详情 →

下期见 ✌️