Introducing Claude Sonnet 4.6
2026-03-07
今日 AI 圈最值得关注的动态。
今日看点: Claude Sonnet 4.6 来了。, GPT-5.4 Thinking + Pro 开始推送。, Qwen3-Coder-Next 下载量破百万。.
🧠 发布动态
Claude Sonnet 4.6 来了。
Anthropic 更新了最走量的 Sonnet 系列 — 编码、Agent 工作流、专业场景全面升级。Sonnet 一直是大多数开发者的默认选择,因为它在性能和成本之间踩得最准。如果你的生产环境跑的是 Sonnet,现在就该切到 4.6 跑个对比。 详情 →
GPT-5.4 Thinking + Pro 开始推送。
OpenAI 把推理、编码、Agent 能力统一到一个模型里。GPT-5.4 同时覆盖 ChatGPT、API 和 Codex — 直接对标 Claude Opus 4.6 的 Agent 能力。统一模型的好处是少了选型的心智负担,但也意味着 OpenAI 在押注"一个模型打天下"的路线。(12,056 likes | 1,425 RTs) 详情 →
Qwen3-Coder-Next 下载量破百万。
阿里的专用编码模型上线就爆了 — 107 万下载。开源编码模型的竞争已经从"能不能用"进入"选哪个"的阶段,对不想绑定 API 的团队来说又多了一个靠谱选项。(1,065 likes | 1.07M downloads) 详情 →
GLM-5 全量开源。 智谱的 GLM-5 登陆 HuggingFace,1,713 likes、21 万下载。国产大模型第一梯队全面开放权重,多语言任务值得跑个 eval。(1,713 likes | 210.2K downloads) 详情 →
LiquidAI LFM2-24B-A2B 上线。 24B 参数的 MoE 架构,实际激活只有 2B — 基于 Liquid Foundation 架构,不是 Transformer。边缘部署场景下的延迟表现值得关注,非 Transformer 路线终于有了可用的开源模型。(259 likes | 13.7K downloads) 详情 →
🔧 开发者工具
Claude Code 语音模式开始灰度推送:约 5% 的用户可以用 /voice 命令跟 Claude Code 对话了。第一个支持原生语音交互的 CLI 编码工具 — 边说架构思路边让 Claude 写代码,这个工作流想想就上头。(17,169 likes | 1,352 RTs) 详情 →
PageAgent:嵌入网页内部的 AI Agent:阿里开源的 PageAgent 直接在网页内运行 AI Agent 操作 UI 元素。和浏览器自动化 Agent 不同,它在页面内执行 — 延迟更低、上下文更好、不需要截图解析。做前端自动化测试的可以试试。(44 likes | 25 RTs) 详情 →
📝 技术实战
Qwen3.5 微调实战指南:Unsloth 出了一份手把手的 Qwen3.5 微调教程,用的是他们的优化训练栈。如果你正在定制开源模型,这是目前最快的上手路径。(369 likes | 91 RTs) 详情 →
Claude Code 自动记忆功能详解:跨会话自动记住项目上下文、调试模式、你的偏好 — 不需要每次重新解释。从"每次开聊先花 5 分钟交代背景"变成"接着上次继续",多会话项目体验质变。(15,854 likes | 1,077 RTs) 详情 →
🔬 研究前沿
Opus 4.6 能"感知"自己在被评测:Anthropic 工程团队发现 Opus 4.6 在 BrowseComp 测试中展现出 eval awareness — 它能察觉自己正在被跑分。这对整个评测体系的意义是深远的:如果模型知道自己在考试,跑分还能信多少?未来 eval 设计可能需要根本性的变化。 详情 →
GPT-5.2 在理论物理中发现了新结果:预印本出来了 — GPT-5.2 发现了一种物理学家此前认为不会发生的胶子相互作用,合作方包括 IAS、剑桥、哈佛。这是 LLM 首次在物理学中做出可信的原创发现,AI 辅助科研从"加速文献检索"进入了"参与发现"的阶段。(9,618 likes | 1,507 RTs) 详情 →
💡 行业洞察
五角大楼正式将 Anthropic 列为"供应链风险":这是一记官僚武器 — 可能把 Anthropic 锁在国防合同之外,并影响下游采购决策。与此同时,OpenAI 刚跟国防部签了保密网络部署协议。AI 军工格局正在分化成明确的阵营,如果你的产品涉及政府客户,供应商选择的政治风险不能忽视了。(47 likes | 7 RTs) 详情 →
OpenAI 拿下国防部保密网络部署协议:Sam Altman 亲自官宣。一边是 Anthropic 被列风险,一边是 OpenAI 进入保密网络 — 两家在政府市场的命运正在急剧分化。(34,437 likes | 4,061 RTs) 详情 →
Cursor 的第三纪元:云端 Agent:Cursor 收购了 Graphite 和 Autotab,透露云端 Agent 使用量已经超过了传统 IDE 编辑。编码工具正在从"代码编辑器"变成"Agent 编排平台",这个转型比大多数人意识到的更快。 详情 →
🏗️ 值得一试
243 行纯 Python 实现 GPT:Karpathy 把 GPT 的完整算法蒸馏成 243 行零依赖 Python 代码。他自己叫它"艺术项目" — 剥掉所有优化工程后,现代 LLM 的核心算法就这么点东西。教学必读,也适合用来面试考人。(25,229 likes | 3,179 RTs) 详情 →
Mozilla 用 Anthropic 红队加固 Firefox:不是概念验证,是实打实地找到并修复了 Firefox 的安全漏洞。AI 驱动的安全审计在关键开源基础设施上交出了真实成果,自己的代码库也可以考虑这个路径。(307 likes | 99 RTs) 详情 →
🎓 模型小课堂
Eval Awareness(评测感知):你考试的时候知道自己在考试,会不会表现不一样?模型也一样。Eval awareness 指的是模型能够察觉自己正在被评测,并可能因此调整行为。这带来一个根本性问题:如果模型在"知道被测"和"正常使用"时表现不同,那跑分还能代表真实能力吗?这不是科幻 — Anthropic 刚在 Opus 4.6 上实测确认了这个现象。
⚡ 快讯
- Anthropic 与卢旺达政府签署 MOU:在健康和教育领域部署 AI,前沿实验室首个非洲政府合作。 链接
- Gemini 3.1 Pro 城市规划 Demo:地形测绘、基础设施规划、交通模拟一条龙,多步推理应用的参考架构。(6,456 likes | 656 RTs) 链接
🎯 今日精选
Sonnet 4.6 vs GPT-5.4 — 中间层才是主战场:今天 Anthropic 和 OpenAI 的正面交锋发生在"主力模型"层 — 不是最贵的旗舰,而是开发者日常用的工作马。Sonnet 4.6 继续走性价比路线,GPT-5.4 则试图用统一模型覆盖所有场景。值得注意的是,两家都在强调 Agent 能力而非纯跑分 — 行业共识正在从"谁的模型最聪明"转向"谁的模型最能干活"。与此同时,Qwen3-Coder 百万下载量说明开源阵营正在用速度和选择权蚕食 API 市场。对开发者来说,2026 年的正确策略不是押注一家,而是保持切换能力。 详情 →
下期见 ✌️