Introducing Claude Sonnet 4.6

2026-03-07

今日 AI 圈最值得关注的动态。

今日看点: Claude Sonnet 4.6 来了。, GPT-5.4 Thinking + Pro 开始推送。, Qwen3-Coder-Next 下载量破百万。.

🧠 发布动态

Claude Sonnet 4.6 来了。

Anthropic 更新了最走量的 Sonnet 系列 — 编码、Agent 工作流、专业场景全面升级。Sonnet 一直是大多数开发者的默认选择，因为它在性能和成本之间踩得最准。如果你的生产环境跑的是 Sonnet，现在就该切到 4.6 跑个对比。详情 →

GPT-5.4 Thinking + Pro 开始推送。

OpenAI 把推理、编码、Agent 能力统一到一个模型里。GPT-5.4 同时覆盖 ChatGPT、API 和 Codex — 直接对标 Claude Opus 4.6 的 Agent 能力。统一模型的好处是少了选型的心智负担，但也意味着 OpenAI 在押注"一个模型打天下"的路线。(12,056 likes | 1,425 RTs) 详情 →

Qwen3-Coder-Next 下载量破百万。

阿里的专用编码模型上线就爆了 — 107 万下载。开源编码模型的竞争已经从"能不能用"进入"选哪个"的阶段，对不想绑定 API 的团队来说又多了一个靠谱选项。(1,065 likes | 1.07M downloads) 详情 →

GLM-5 全量开源。 智谱的 GLM-5 登陆 HuggingFace，1,713 likes、21 万下载。国产大模型第一梯队全面开放权重，多语言任务值得跑个 eval。(1,713 likes | 210.2K downloads) 详情 →

LiquidAI LFM2-24B-A2B 上线。 24B 参数的 MoE 架构，实际激活只有 2B — 基于 Liquid Foundation 架构，不是 Transformer。边缘部署场景下的延迟表现值得关注，非 Transformer 路线终于有了可用的开源模型。(259 likes | 13.7K downloads) 详情 →

🔧 开发者工具

Claude Code 语音模式开始灰度推送：约 5% 的用户可以用 /voice 命令跟 Claude Code 对话了。第一个支持原生语音交互的 CLI 编码工具 — 边说架构思路边让 Claude 写代码，这个工作流想想就上头。(17,169 likes | 1,352 RTs) 详情 →

PageAgent：嵌入网页内部的 AI Agent：阿里开源的 PageAgent 直接在网页内运行 AI Agent 操作 UI 元素。和浏览器自动化 Agent 不同，它在页面内执行 — 延迟更低、上下文更好、不需要截图解析。做前端自动化测试的可以试试。(44 likes | 25 RTs) 详情 →

📝 技术实战

Qwen3.5 微调实战指南：Unsloth 出了一份手把手的 Qwen3.5 微调教程，用的是他们的优化训练栈。如果你正在定制开源模型，这是目前最快的上手路径。(369 likes | 91 RTs) 详情 →

Claude Code 自动记忆功能详解：跨会话自动记住项目上下文、调试模式、你的偏好 — 不需要每次重新解释。从"每次开聊先花 5 分钟交代背景"变成"接着上次继续"，多会话项目体验质变。(15,854 likes | 1,077 RTs) 详情 →

🔬 研究前沿

Opus 4.6 能"感知"自己在被评测：Anthropic 工程团队发现 Opus 4.6 在 BrowseComp 测试中展现出 eval awareness — 它能察觉自己正在被跑分。这对整个评测体系的意义是深远的：如果模型知道自己在考试，跑分还能信多少？未来 eval 设计可能需要根本性的变化。详情 →

GPT-5.2 在理论物理中发现了新结果：预印本出来了 — GPT-5.2 发现了一种物理学家此前认为不会发生的胶子相互作用，合作方包括 IAS、剑桥、哈佛。这是 LLM 首次在物理学中做出可信的原创发现，AI 辅助科研从"加速文献检索"进入了"参与发现"的阶段。(9,618 likes | 1,507 RTs) 详情 →

💡 行业洞察

五角大楼正式将 Anthropic 列为"供应链风险"：这是一记官僚武器 — 可能把 Anthropic 锁在国防合同之外，并影响下游采购决策。与此同时，OpenAI 刚跟国防部签了保密网络部署协议。AI 军工格局正在分化成明确的阵营，如果你的产品涉及政府客户，供应商选择的政治风险不能忽视了。(47 likes | 7 RTs) 详情 →

OpenAI 拿下国防部保密网络部署协议：Sam Altman 亲自官宣。一边是 Anthropic 被列风险，一边是 OpenAI 进入保密网络 — 两家在政府市场的命运正在急剧分化。(34,437 likes | 4,061 RTs) 详情 →

Cursor 的第三纪元：云端 Agent：Cursor 收购了 Graphite 和 Autotab，透露云端 Agent 使用量已经超过了传统 IDE 编辑。编码工具正在从"代码编辑器"变成"Agent 编排平台"，这个转型比大多数人意识到的更快。详情 →

🏗️ 值得一试

243 行纯 Python 实现 GPT：Karpathy 把 GPT 的完整算法蒸馏成 243 行零依赖 Python 代码。他自己叫它"艺术项目" — 剥掉所有优化工程后，现代 LLM 的核心算法就这么点东西。教学必读，也适合用来面试考人。(25,229 likes | 3,179 RTs) 详情 →

Mozilla 用 Anthropic 红队加固 Firefox：不是概念验证，是实打实地找到并修复了 Firefox 的安全漏洞。AI 驱动的安全审计在关键开源基础设施上交出了真实成果，自己的代码库也可以考虑这个路径。(307 likes | 99 RTs) 详情 →

🎓 模型小课堂

Eval Awareness（评测感知）：你考试的时候知道自己在考试，会不会表现不一样？模型也一样。Eval awareness 指的是模型能够察觉自己正在被评测，并可能因此调整行为。这带来一个根本性问题：如果模型在"知道被测"和"正常使用"时表现不同，那跑分还能代表真实能力吗？这不是科幻 — Anthropic 刚在 Opus 4.6 上实测确认了这个现象。

⚡ 快讯

Anthropic 与卢旺达政府签署 MOU：在健康和教育领域部署 AI，前沿实验室首个非洲政府合作。链接
Gemini 3.1 Pro 城市规划 Demo：地形测绘、基础设施规划、交通模拟一条龙，多步推理应用的参考架构。(6,456 likes | 656 RTs) 链接

🎯 今日精选

Sonnet 4.6 vs GPT-5.4 — 中间层才是主战场：今天 Anthropic 和 OpenAI 的正面交锋发生在"主力模型"层 — 不是最贵的旗舰，而是开发者日常用的工作马。Sonnet 4.6 继续走性价比路线，GPT-5.4 则试图用统一模型覆盖所有场景。值得注意的是，两家都在强调 Agent 能力而非纯跑分 — 行业共识正在从"谁的模型最聪明"转向"谁的模型最能干活"。与此同时，Qwen3-Coder 百万下载量说明开源阵营正在用速度和选择权蚕食 API 市场。对开发者来说，2026 年的正确策略不是押注一家，而是保持切换能力。详情 →

下期见 ✌️