DeepSeek V4 来了 — 前沿性能,二十分之一的价格
🧠 发布动态
DeepSeek V4 来了 — 前沿性能,二十分之一的价格。
你的 API 账单可能要大幅缩水。DeepSeek V4 跑分直逼 Opus 4.7 和 GPT-5.5,但 token 价格只有 Opus 4.7 的 1/20。百万 token 上下文窗口专为 Agent 场景设计,这不是"便宜但凑合",而是 MoE 架构带来的结构性成本优势。对中国开发者来说更是好消息 — 国产模型再次证明了在成本效率上的碾压能力。(4,047 likes | 309 RTs) 详情 →
GPT-5.5 正式开放 API — 同时也是史上最贵的前沿模型。
OpenAI 把 GPT-5.5 从 ChatGPT 独占推到了全面 API 可用,Pro 版定价 $30/百万输出 token,刷新了前沿模型的价格天花板。和 DeepSeek V4 同一天发布,一个走极致性价比,一个走极致定价 — 市场正在分化成两条路线。(4,189 likes | 214 RTs) 详情 →
DeepSeek V4-Pro 开源权重上线 HuggingFace。 Pro 版本直接放出权重下载,跑分对标 Opus 4.7 水平的模型你今天就能拉到本地跑。开源前沿又往前推了一大步。(2,415 likes | 30 downloads) 详情 →
OpenAI 发布临床医生专属 ChatGPT — 免费。 继垂直化产品策略后的第二个医疗落地:专为临床场景定制,对医生完全免费。这不是在赚钱,是在抢占医疗 AI 的入口。(4,620 likes | 534 RTs) 详情 →
谷歌一口气倒出一周的 Cloud Next AI 基建成果。 第八代 TPU(TPUt/TPUi)、企业级 Agent 平台、Gemini Embedding 2 GA、Agent 数据云、Workspace Intelligence — 这是谷歌有史以来最密集的一次 AI 基础设施发布。不是一个产品,是一整套生态升级。(100 likes | 16 RTs) 详情 →
💡 行业洞察
谷歌正在谈判向 Anthropic 注资高达 400 亿美元。
如果落地,这将是 AI 领域有史以来最大的单笔投资。彭博报道谷歌正在讨论的数字是 400 亿美元 — 这意味着 Anthropic 同时拿着亚马逊和谷歌两大云巨头的重注。竞争格局的底层逻辑正在改变:前沿模型公司不再是独立玩家,而是巨头博弈的筹码。(250 likes | 313 RTs) 详情 →
Anthropic 和亚马逊扩大合作,锁定 5 吉瓦新算力。 5 吉瓦是什么概念?够给一个中等城市供电。Anthropic 正在以数据中心城市级别的规模储备算力,和微软、谷歌正面竞争基础设施。 详情 →
Meta 找 AWS 采购数千万个 Graviton 核心。 连 Meta 这种自建 GPU 集群最激进的公司,都开始向 AWS 外包算力了 — Agent 工作负载在数十亿用户规模下,自建也不够用。(1,018 likes | 79 RTs) 详情 →
马斯克诉 OpenAI 案下周一进入陪审团遴选。 AI 时代最大的法律战即将在奥克兰开庭 — 判决结果可能迫使 OpenAI 重组,影响其 3000 亿美元估值,并为 AI 公司的法人结构变更立下判例。 详情 →
Anthropic 与 NEC 合作,打造日本最大 AI 工程师团队。 Anthropic 在亚洲最大企业 AI 市场的第一个重磅合作 — NEC 是日本最大的 IT 服务商,这标志着 Claude 正式进军日本企业市场。 详情 →
🔬 研究前沿
Anthropic 的 Project Deal:Claude 在真实办公室市场里讨价还价。
这才是 Agent 能力的真正测试 — 不是跑分,而是真金白银。Anthropic 在旧金山办公室搭了个真实市场,让员工和 Claude 进行真实交易和谈判。结果揭示了 LLM 在经济行为中的实际表现:它们如何定价、让步、博弈。这是首个控制环境下的 AI 经济行为研究,比任何 benchmark 都更能说明 Agent 商业化的前景和风险。(3,772 likes | 251 RTs) 详情 →
OpenAI 为 GPT-5.5 设立专项生物安全漏洞赏金。 为单一模型发布做专门的生物安全红队测试,这是前所未有的。OpenAI 认为 GPT-5.5 的能力已经超出了常规安全审查的范畴,需要领域专家专项测试。(1,719 likes | 124 RTs) 详情 →
DeepMind 的 Decoupled DiLoCo:在不稳定的数据中心之间训练模型。 分布式训练的关键瓶颈是网络故障和跨数据中心延迟 — DeepMind 的新方法容忍这些问题,让训练规模突破单一集群的物理限制。(956 likes | 129 RTs) 详情 →
🔧 开发者工具
GPT-5.5 登顶 CursorBench — Cursor 当天就上线了集成。 Cursor 自家跑分给出 72.8% 的最高分,然后同一天就发布了集成。生态适配速度本身就在说明这个模型的分量。(3,508 likes | 163 RTs) 详情 →
Claude Code 网页版和移动端大更新。 界面全面刷新,桌面端新增文件浏览器(CMD+Shift+F),网页和手机端体验显著提升。质量复盘后的快速迭代还在继续。(1,752 likes | 76 RTs) 详情 →(延伸阅读:如何高效使用 Claude Code Prompt)
Anthropic 发布 Rate Limits API。 管理员现在可以通过 API 编程查询组织和工作区级别的速率限制 — 管理 API 预算、搭内部监控面板的团队终于不用手动查了。 详情 →
Sakana AI 发布 Fugu:多智能体编排系统 beta 版。 以进化模型合并闻名的 Sakana 推出了第一个商业产品 — Fugu 定位在单 Agent 工具和 Anthropic Managed Agents 这样的全平台方案之间,走轻量级多 Agent 编排路线。(478 likes | 121 RTs) 详情 →
📝 技术实战
Claude Code Setup 插件:一键配置 Hooks、Skills 和 MCP。 Anthropic 官方出品 — 分析你的项目后自动推荐该激活哪些自动化能力,把 Claude Code 的 hooks、skills、MCP 集成的配置门槛从"读半天文档"降到"跑一条命令"。如果你一直想用 Claude Code 的高级功能但被配置劝退,这就是你等的东西。(1,445 likes | 141 RTs) 详情 →(延伸阅读:Claude Code Subagents 实战案例)
Qwen3.6-27B 在树莓派上现场写网页应用。 HuggingFace CEO 亲自演示 — 一个 27B 参数的前沿级模型在树莓派上实时编码。本地 AI 和云端 AI 的能力差距在边缘端持续收窄。对算力敏感的场景,本地部署正在变成现实选项。(3,440 likes | 283 RTs) 详情 →
🏗️ 值得一试
Superpowers:166K Star 的 Agent 技能框架。 把 Agent 开发中的"技能模式"(skills pattern)系统化成了可复用的方法论和框架。本月新冒出的 Agent 框架里人气最高的一个 — 166K star 还在涨。如果你在做 Agent 开发,去翻翻它的技能库,大概率能直接用。(166,764 likes | 14,657 RTs) 详情 →
🎓 模型小课堂
混合专家模型(MoE)与推理成本:DeepSeek V4 能以 Opus 4.7 二十分之一的价格达到前沿水平,核心秘密是 MoE(Mixture of Experts)架构。简单说:一个模型内部有很多"专家"子网络,但每次处理一个 token 时只激活其中一小部分。比如模型总共有 6000 亿参数,但每个 token 只用到 300 亿 — 算力开销大幅降低,但模型的总知识量不缩水。这就是为什么成本颠覆一次又一次地来自架构创新,而不仅仅是堆规模。理解了 MoE,你就能看懂为什么"便宜"和"强"不再矛盾。
⚡ 快讯
- Transformers.js Chrome 扩展教程:手把手教你在浏览器扩展里跑 ML 模型 — 无服务器、无 API Key、离线可用。 链接
- Browser Harness:专为 LLM Agent 设计的开源浏览器自动化框架,比 Playwright 方案更轻量。(73 likes | 28 RTs) 链接
- Anthropic TypeScript SDK v0.91.1:CMA 内存文件权限安全补丁 — 生产环境用了 Managed Agent Memory 的立即更新。 链接
🎯 今日精选
Project Deal 揭示了 AI Agent 真正的考验不在跑分,而在真金白银的博弈:Anthropic 让 Claude 在办公室里运营一个真实市场 — 不是模拟,是员工拿真实物品和真实偏好参与的交易。结果发现,LLM 的议价行为和人类预期之间存在系统性差距:Claude 在某些场景下过于"公平",在另一些场景下又表现出人类不会有的定价模式。这个实验揭示的核心问题是 — 当 AI Agent 开始参与真实经济活动,对齐问题不再是"说了什么不该说的话",而是"它的经济行为是否符合人类委托人的利益"。这可能是 Agent 商业化道路上最大的未解难题,比任何技术 benchmark 都更值得关注。 详情 →
下期见 ✌️