DeepSeek-V4 带着百万 token 上下文窗口来了，Agent 开发者最该关注

🧠 发布动态

DeepSeek-V4 带着百万 token 上下文窗口来了，Agent 开发者最该关注。

HuggingFace 的深度技术分析揭示了 DeepSeek-V4 百万 token 上下文的真实能力 — 不只是数字好看，MoE 路由和上下文利用模式专门为 Agent 工作流优化。当你能把整个代码库、完整文档和多轮对话全部塞进一个上下文窗口时，Agent 的工作方式会发生质变。但注意：标称上下文和有效上下文（Effective Context）之间的差距才是决定实际可用性的关键数字。详情 →

GPT-5.5 第一天就铺进了微软全家桶。

Satya Nadella 确认 GPT-5.5 同步上线 GitHub Copilot、M365 Copilot、Copilot Studio 和 Foundry — 这不是简单的模型替换，而是一次协调好的平台级事件。微软把"拿到最新模型"到"企业全面可用"的时间压缩到了零。用 Copilot 的现在就检查你的 tier 有没有更新。(2,426 likes | 226 RTs) 详情 →

GPT-5.5 和 GPT-5.5 Pro 正式上线 API。 Sam Altman 亲自确认。GPT-5.5 Pro 定价 $30/百万输出 token — 有史以来最贵的 frontier API。OpenAI 赌的是：在 DeepSeek 以 1/20 价格疯狂卷价格战的时候，极致能力本身就能撑住溢价。(3,692 likes | 169 RTs) 详情 →

DeepSeek-V4-Flash 上线 HuggingFace。 Flash 变体牺牲一点质量换极致推理速度，HuggingFace 上已经 614 likes。开源社区用下载量投票 — 对延迟敏感的场景，Flash 是更实际的选择。(614 likes | 23 downloads) 详情 →

OpenArt 的 Smart Shot 把图片和视频生成合成了一个 prompt。 用 GPT Image-2 加 Seedance 2.0，一句话生成完整的电影级场景 — 全景、特写、建立镜头一步到位。创作者等的就是这个：不用在图片工具和视频工具之间反复横跳。(1,329 likes | 922 RTs) 详情 →

🔧 开发者工具

Claude Code 终于不再疯狂调用 Grep 和 Glob 了。 Boris Cherny 确认 v2.1.117+ 修复了一个用户抱怨了四个月的行为问题 — Claude Code 现在优先使用原生文件操作而不是反复 shell out。每天用 Claude Code 的人会立刻感受到速度差异。更新到 v2.1.117+ 就行。(1,688 likes | 55 RTs) 详情 → 延伸阅读：如何高效 prompt Claude Code

Codex + GPT-5.5 正在一个 prompt 搞定整个应用。 开发者反馈涌入 — Codex 的浏览器能力加 GPT-5.5 的推理，代码 Agent 能在单次交互中完成的任务量有了质的飞跃。如果你还没试过，现在是时候了。(3,119 likes | 158 RTs) 详情 →

Claude Code 桌面版上线文件浏览器。 CMD+Shift+F 直接浏览、查看、编辑文件 — 改个 Tailwind class 不用再求 Agent 代劳。这补上了 Claude Code 和传统 IDE 之间最后一块体验短板。(116 likes | 2 RTs) 详情 →

Sakana AI 发布 Fugu — 多 Agent 编排系统。 做进化模型合并出名的 Sakana 推出了商用多 Agent 编排工具。定位在单 Agent 工具和重型平台之间 — 适合还没准备好用 Managed Agents 但已经超越简单串联的团队。(478 likes | 121 RTs) 详情 →

💡 行业洞察

AI Agent 已经能独立复现学术论文 — 还找出了人类的错误。

Ethan Mollick 展示了令人不安的证据：AI Agent 仅凭方法和数据就能复现复杂学术论文，完全不需要看代码或原文。更尴尬的是，AI 发现的错误往往出在人类的原始论文里。这不是"AI 辅助科研"的故事，这是对整个同行评审体系的存在性挑战 — 到底谁在检查谁？(969 likes | 157 RTs) 详情 →

谷歌 400 亿美元投资 Anthropic — AI 版图重新洗牌。

史上最大 AI 投资正在成形 — 谷歌的 400 亿美元承诺加 5 吉瓦算力协议，将让 Anthropic 成为地球上获得资金支持最多的 AI 公司。这笔交易重塑了谷歌、亚马逊和 Anthropic 之间的竞争格局，也引出了一个根本问题：当你的最大投资者同时是你的云服务商和竞争对手，"云中立"还存在吗？详情 →

连 Meta 都需要外部算力。 全球最垂直整合的 AI 公司签下了数十亿美元的亚马逊 Graviton CPU 合同，专门跑 Agent 工作负载。当 Meta 都搞不定自家的 Agent 推理算力时，混合云方案就不是选项而是必然。详情 →

北京收紧美国对华 AI 投资审批。 中国计划要求科技公司接受美国投资前必须获批 — 直接触发因素是 Meta 收购 Manus。这将影响哪些中国 AI 公司能与西方合作，供应链有中国依赖的团队需要重新评估风险。详情 →

🔬 研究前沿

OpenAI 为 GPT-5.5 开设生物安全专项 Bug Bounty。 这是前所未有的操作 — 为单个模型的单个领域设专项红队测试。OpenAI 承认 frontier 模型的生物安全能力已经超出了通用安全审查的覆盖范围，需要垂直领域的专家来找问题。有生物安全背景的可以去申请。(125 likes | 94 RTs) 详情 →

GPT-5.5 thinking 模式登顶所有主流排行榜。 独立跑分确认 GPT-5.5 的推理模式在各大 benchmark 上全面领先。结合近期 Opus 4.7 的退步传闻，竞争格局正在快速变化 — 锁定单一供应商的团队可能需要重新评估。(338 likes | 14 RTs) 详情 →

LamBench 暴露了现有模型的形式推理盲区。 Victor Taelin 的 Lambda 演算基准测试让当前 frontier 模型集体翻车 — 在这个领域，模式匹配和死记硬背完全不管用。如果你关心模型的真实推理能力而不只是刷分，这个 benchmark 值得关注。(128 likes | 38 RTs) 详情 →

📝 技术实战

这个插件帮你自动配置 Claude Code 全套环境。 claude-code-setup 插件在英语、葡萄牙语、日语社区同时爆火 — 它扫描你的项目，告诉你该激活哪些 hooks、skills、MCP 服务器和 subagents。Claude Code 上手最实用的捷径，没有之一。(811 likes | 75 RTs) 详情 → 延伸阅读：Claude Code subagents 实战示例

Qwen3.6-27B 在树莓派上跑，现场写出了一个能用的 Web 应用。 一个 frontier 级别的 27B 模型在树莓派上实时写代码 — 这条推文之所以疯传，是因为它让"什么任务真的需要云"这个问题变得无比直观。当本地硬件能跑 27B 模型做实际开发时，你对"本地 vs 云"的判断可能需要更新了。(3,438 likes | 282 RTs) 详情 →

🏗️ 值得一试

OpenAI 开源了模型可监控性评估工具。 罕见的安全公共贡献 — 这套评估衡量模型被监控和监督的能力，恰恰是 Agent 获得真实权限后最重要的能力。维护 AI 安全流水线的团队，值得集成进去。(492 likes | 47 RTs) 详情 →

🎓 模型小课堂

有效上下文长度 vs. 标称上下文窗口（Effective Context Length vs. Advertised Context Window）：DeepSeek-V4 号称支持 100 万 token 上下文，但"标称上下文"和"有效上下文"是两码事。标称上下文是模型能接收的最大 token 数；有效上下文是模型真正能关注到、能从中提取信息的 token 范围。很多模型在上下文窗口的后半段注意力急剧下降 — 信息虽然塞进去了，但模型"看不见"。对于构建 Agent 工作流的开发者来说，在 DeepSeek-V4、GPT-5.5 和 Claude 之间做选择时，有效上下文才是真正决定可用性的数字。别被标称数字忽悠 — 用 Needle-in-a-Haystack 测试在你自己的场景里验证。

⚡ 快讯

Mollick：多 Agent 组织设计才是真正的价值解锁点：单个 Agent 的能力已经够强，瓶颈在于如何让多个 Agent 高效协作。(397 likes | 60 RTs) 链接
Kimi Code 上线，可直接替代 Claude Code：月之暗面出品，100 tokens/sec，262K 上下文，换两个环境变量就能用。(38 likes | 3 RTs) 链接
ArXiv 论文：深度学习终将拥有科学理论：不只是经验配方，而是完整的理论框架 — HN 上讨论火热。(102 likes | 39 RTs) 链接
Ollama v0.21.3 打通 OpenAI reasoning_effort 到本地 think 参数：同一套 API 调用，云端和本地模型通用。链接

🎯 今日精选

AI Agent 复现论文并发现人类错误 — 同行评审的存在性危机：当 AI Agent 仅凭方法描述和原始数据就能独立重建复杂学术论文 — 而且发现的错误往往出在人类的原始工作中 — 整个同行评审体系面临一个根本性问题：到底谁在检查谁？这不是遥远的假设，而是已经发生的现实。学术界长期依赖"人审人"的信任模型，但当 Agent 的复现能力超过了大多数审稿人的验证能力时，我们可能需要重新思考：也许未来的标配不是"能不能通过同行评审"，而是"能不能通过 Agent 复现"。对于做科研的团队，这既是工具也是警钟 — 在发表前先让 Agent 试着复现你的结果，可能比找三个审稿人更靠谱。详情 →

下期见 ✌️