DeepSeek-V4 带着百万 token 上下文窗口来了,Agent 开发者最该关注
🧠 发布动态
DeepSeek-V4 带着百万 token 上下文窗口来了,Agent 开发者最该关注。
HuggingFace 的深度技术分析揭示了 DeepSeek-V4 百万 token 上下文的真实能力 — 不只是数字好看,MoE 路由和上下文利用模式专门为 Agent 工作流优化。当你能把整个代码库、完整文档和多轮对话全部塞进一个上下文窗口时,Agent 的工作方式会发生质变。但注意:标称上下文和有效上下文(Effective Context)之间的差距才是决定实际可用性的关键数字。 详情 →
GPT-5.5 第一天就铺进了微软全家桶。
Satya Nadella 确认 GPT-5.5 同步上线 GitHub Copilot、M365 Copilot、Copilot Studio 和 Foundry — 这不是简单的模型替换,而是一次协调好的平台级事件。微软把"拿到最新模型"到"企业全面可用"的时间压缩到了零。用 Copilot 的现在就检查你的 tier 有没有更新。(2,426 likes | 226 RTs) 详情 →
GPT-5.5 和 GPT-5.5 Pro 正式上线 API。 Sam Altman 亲自确认。GPT-5.5 Pro 定价 $30/百万输出 token — 有史以来最贵的 frontier API。OpenAI 赌的是:在 DeepSeek 以 1/20 价格疯狂卷价格战的时候,极致能力本身就能撑住溢价。(3,692 likes | 169 RTs) 详情 →
DeepSeek-V4-Flash 上线 HuggingFace。 Flash 变体牺牲一点质量换极致推理速度,HuggingFace 上已经 614 likes。开源社区用下载量投票 — 对延迟敏感的场景,Flash 是更实际的选择。(614 likes | 23 downloads) 详情 →
OpenArt 的 Smart Shot 把图片和视频生成合成了一个 prompt。 用 GPT Image-2 加 Seedance 2.0,一句话生成完整的电影级场景 — 全景、特写、建立镜头一步到位。创作者等的就是这个:不用在图片工具和视频工具之间反复横跳。(1,329 likes | 922 RTs) 详情 →
🔧 开发者工具
Claude Code 终于不再疯狂调用 Grep 和 Glob 了。 Boris Cherny 确认 v2.1.117+ 修复了一个用户抱怨了四个月的行为问题 — Claude Code 现在优先使用原生文件操作而不是反复 shell out。每天用 Claude Code 的人会立刻感受到速度差异。更新到 v2.1.117+ 就行。(1,688 likes | 55 RTs) 详情 → 延伸阅读:如何高效 prompt Claude Code
Codex + GPT-5.5 正在一个 prompt 搞定整个应用。 开发者反馈涌入 — Codex 的浏览器能力加 GPT-5.5 的推理,代码 Agent 能在单次交互中完成的任务量有了质的飞跃。如果你还没试过,现在是时候了。(3,119 likes | 158 RTs) 详情 →
Claude Code 桌面版上线文件浏览器。 CMD+Shift+F 直接浏览、查看、编辑文件 — 改个 Tailwind class 不用再求 Agent 代劳。这补上了 Claude Code 和传统 IDE 之间最后一块体验短板。(116 likes | 2 RTs) 详情 →
Sakana AI 发布 Fugu — 多 Agent 编排系统。 做进化模型合并出名的 Sakana 推出了商用多 Agent 编排工具。定位在单 Agent 工具和重型平台之间 — 适合还没准备好用 Managed Agents 但已经超越简单串联的团队。(478 likes | 121 RTs) 详情 →
💡 行业洞察
AI Agent 已经能独立复现学术论文 — 还找出了人类的错误。
Ethan Mollick 展示了令人不安的证据:AI Agent 仅凭方法和数据就能复现复杂学术论文,完全不需要看代码或原文。更尴尬的是,AI 发现的错误往往出在人类的原始论文里。这不是"AI 辅助科研"的故事,这是对整个同行评审体系的存在性挑战 — 到底谁在检查谁?(969 likes | 157 RTs) 详情 →
谷歌 400 亿美元投资 Anthropic — AI 版图重新洗牌。
史上最大 AI 投资正在成形 — 谷歌的 400 亿美元承诺加 5 吉瓦算力协议,将让 Anthropic 成为地球上获得资金支持最多的 AI 公司。这笔交易重塑了谷歌、亚马逊和 Anthropic 之间的竞争格局,也引出了一个根本问题:当你的最大投资者同时是你的云服务商和竞争对手,"云中立"还存在吗? 详情 →
连 Meta 都需要外部算力。 全球最垂直整合的 AI 公司签下了数十亿美元的亚马逊 Graviton CPU 合同,专门跑 Agent 工作负载。当 Meta 都搞不定自家的 Agent 推理算力时,混合云方案就不是选项而是必然。 详情 →
北京收紧美国对华 AI 投资审批。 中国计划要求科技公司接受美国投资前必须获批 — 直接触发因素是 Meta 收购 Manus。这将影响哪些中国 AI 公司能与西方合作,供应链有中国依赖的团队需要重新评估风险。 详情 →
🔬 研究前沿
OpenAI 为 GPT-5.5 开设生物安全专项 Bug Bounty。 这是前所未有的操作 — 为单个模型的单个领域设专项红队测试。OpenAI 承认 frontier 模型的生物安全能力已经超出了通用安全审查的覆盖范围,需要垂直领域的专家来找问题。有生物安全背景的可以去申请。(125 likes | 94 RTs) 详情 →
GPT-5.5 thinking 模式登顶所有主流排行榜。 独立跑分确认 GPT-5.5 的推理模式在各大 benchmark 上全面领先。结合近期 Opus 4.7 的退步传闻,竞争格局正在快速变化 — 锁定单一供应商的团队可能需要重新评估。(338 likes | 14 RTs) 详情 →
LamBench 暴露了现有模型的形式推理盲区。 Victor Taelin 的 Lambda 演算基准测试让当前 frontier 模型集体翻车 — 在这个领域,模式匹配和死记硬背完全不管用。如果你关心模型的真实推理能力而不只是刷分,这个 benchmark 值得关注。(128 likes | 38 RTs) 详情 →
📝 技术实战
这个插件帮你自动配置 Claude Code 全套环境。 claude-code-setup 插件在英语、葡萄牙语、日语社区同时爆火 — 它扫描你的项目,告诉你该激活哪些 hooks、skills、MCP 服务器和 subagents。Claude Code 上手最实用的捷径,没有之一。(811 likes | 75 RTs) 详情 → 延伸阅读:Claude Code subagents 实战示例
Qwen3.6-27B 在树莓派上跑,现场写出了一个能用的 Web 应用。 一个 frontier 级别的 27B 模型在树莓派上实时写代码 — 这条推文之所以疯传,是因为它让"什么任务真的需要云"这个问题变得无比直观。当本地硬件能跑 27B 模型做实际开发时,你对"本地 vs 云"的判断可能需要更新了。(3,438 likes | 282 RTs) 详情 →
🏗️ 值得一试
OpenAI 开源了模型可监控性评估工具。 罕见的安全公共贡献 — 这套评估衡量模型被监控和监督的能力,恰恰是 Agent 获得真实权限后最重要的能力。维护 AI 安全流水线的团队,值得集成进去。(492 likes | 47 RTs) 详情 →
🎓 模型小课堂
有效上下文长度 vs. 标称上下文窗口(Effective Context Length vs. Advertised Context Window):DeepSeek-V4 号称支持 100 万 token 上下文,但"标称上下文"和"有效上下文"是两码事。标称上下文是模型能接收的最大 token 数;有效上下文是模型真正能关注到、能从中提取信息的 token 范围。很多模型在上下文窗口的后半段注意力急剧下降 — 信息虽然塞进去了,但模型"看不见"。对于构建 Agent 工作流的开发者来说,在 DeepSeek-V4、GPT-5.5 和 Claude 之间做选择时,有效上下文才是真正决定可用性的数字。别被标称数字忽悠 — 用 Needle-in-a-Haystack 测试在你自己的场景里验证。
⚡ 快讯
- Mollick:多 Agent 组织设计才是真正的价值解锁点:单个 Agent 的能力已经够强,瓶颈在于如何让多个 Agent 高效协作。(397 likes | 60 RTs) 链接
- Kimi Code 上线,可直接替代 Claude Code:月之暗面出品,100 tokens/sec,262K 上下文,换两个环境变量就能用。(38 likes | 3 RTs) 链接
- ArXiv 论文:深度学习终将拥有科学理论:不只是经验配方,而是完整的理论框架 — HN 上讨论火热。(102 likes | 39 RTs) 链接
- Ollama v0.21.3 打通 OpenAI reasoning_effort 到本地 think 参数:同一套 API 调用,云端和本地模型通用。 链接
🎯 今日精选
AI Agent 复现论文并发现人类错误 — 同行评审的存在性危机:当 AI Agent 仅凭方法描述和原始数据就能独立重建复杂学术论文 — 而且发现的错误往往出在人类的原始工作中 — 整个同行评审体系面临一个根本性问题:到底谁在检查谁?这不是遥远的假设,而是已经发生的现实。学术界长期依赖"人审人"的信任模型,但当 Agent 的复现能力超过了大多数审稿人的验证能力时,我们可能需要重新思考:也许未来的标配不是"能不能通过同行评审",而是"能不能通过 Agent 复现"。对于做科研的团队,这既是工具也是警钟 — 在发表前先让 Agent 试着复现你的结果,可能比找三个审稿人更靠谱。 详情 →
下期见 ✌️