Mistral Medium 3.5:128B 纯密集架构,不走寻常路
🧠 发布动态
Mistral Medium 3.5:128B 纯密集架构,不走寻常路。
当所有人都在用 MoE 省推理成本的时候,Mistral 反其道而行 — Medium 3.5 是一个 128B 纯密集模型,每个参数在每个 token 上都参与计算。好处是本地部署和微调更简单直接,代价是推理成本更高。权重已上 HuggingFace,直接对标 OpenAI 和 Anthropic 的 frontier 模型。对想在自己硬件上跑大模型的团队来说,这可能是目前最值得测试的选项。(409 likes | 192 RTs) 详情 →
DeepSeek v4:8% 的成本,SOTA 级开源底座模型。
DeepSeek 没搞排行榜刷分那一套 — 直接放出 v4 底座模型,引入 CSA、HCA、mHC 三项效率创新,训练成本降到 pro 级别的 8%。这不是一个调好的聊天模型,而是一个等你来做 post-training 的底座。如果你的团队在做微调,这是目前性价比最高的起点。(526 likes | 20 RTs) 详情 →
NVIDIA Nemotron 3 Nano Omni 30B:跨模态推理来了。 NVIDIA 的 30B 模型支持文本、音频、视频之间的任意模态转换和推理,专为 Agent 工作流设计。30B 的参数量意味着可以在消费级硬件上跑 — 多模态 Agent 的门槛又降了一档。(142 likes | 9.8K downloads) 详情 →
IBM 公开 Granite 4.1 的构建细节。 企业级模型训练通常是黑箱,IBM 这次罕见地公开了 Granite 4.1 从数据筛选到架构选型的完整决策过程。做企业模型训练的团队值得细读 — 特别是数据配比和质量控制的部分。 详情 →
🔧 开发者工具
Claude API 技能登陆 CodeRabbit、JetBrains、Resolve AI、Warp。 Claude 的 API 能力一口气接入了四个主流开发工具 — 代码审查、IDE、DevOps、终端全覆盖。这不是简单的补全插件,而是完整的 Claude 能力集成。如果你已经在用这些工具,现在检查一下有没有新的 Claude 选项。 详情 →(延伸阅读:Claude Code 到底特别在哪?)
OpenAI 给 Responses API 加了 WebSocket 支持。 Agent 循环的真正瓶颈不是模型速度,而是每次工具调用的 HTTP 往返开销。WebSocket 让响应状态在多轮工具调用间保持活跃,延迟直接降一个量级。如果你在跑多步 Agent 循环,现在就该迁移。(508 likes | 28 RTs) 详情 →
Anthropic 发布 Claude Cowork 企业部署手册。 从"一个人用 Claude"到"全公司用 Claude"不是加账号那么简单。这份手册覆盖了权限管理、工作流集成、安全合规等企业落地的实际问题 — 在做企业 AI 部署的团队别错过。 详情 →
🔬 研究前沿
Anthropic 的"自省适配器":让模型自己报告是否对齐。
以前检测模型是否对齐,靠的是外部红队测试 — 本质上是"从外面猜"。Anthropic 的新研究换了个思路:给模型装上自省适配器(introspection adapters),让它自己报告训练过程中学到的行为,包括潜在的不对齐。如果这个方法能规模化,AI 安全就从"军备竞赛"变成了"体检报告"。当然,关键问题是:一个不对齐的模型会配合自我检查吗?(720 likes | 75 RTs) 详情 →
Claude 解出 23 道专家组解不了的生物学难题。 Anthropic 用 99 道真实数据的生物学问题测试 Claude 和人类专家组 — Claude 解出了其中 23 道专家组卡住的题。这不是"AI 考试拿高分"的故事,而是 frontier 模型作为真正科研工具的具体证据。(596 likes | 44 RTs) 详情 →
Meta Tuna-2:像素嵌入打败视觉编码器。 Meta 的新研究表明,直接在像素级别做嵌入,在多模态理解和生成任务上可以超过传统视觉编码器。这可能是多模态模型处理视觉输入方式的范式转变 — 做多模态 pipeline 的团队需要关注。(266 likes | 36 RTs) 详情 →
Sakana AI 的 KAME:边想边说的语音 AI。 传统语音 AI 是"想完再说",Sakana 在 ICASSP 2026 上提出的串联架构让快速语音模型立即开始回复,同时后端大语言模型(LLM)并行注入知识。这把语音交互的延迟感从根本上解决了 — 不是优化速度,而是改变架构。(187 likes | 24 RTs) 详情 →
📝 技术实战
OpenAI 工程师拆解多 Agent Codex 模式。 一场完整的工作坊,覆盖任务拆分、子 Agent 委派、并行 Agent 间的上下文管理。如果你在用 Codex 构建多 Agent 编码系统,这是目前最实操的参考。(322 likes | 31 RTs) 详情 →(延伸阅读:如何有效地给 Claude Code 写 Prompt)
训练 frontier 小模型的实战报告。 Maxime Labonne 分享了训练小型 frontier 模型的完整经验 — 数据质量、合成数据、蒸馏技巧、以及小模型仍然胜出的场景。做微调而非从头训练的团队,这份报告比论文实用得多。(261 likes | 35 RTs) 详情 →
💡 行业洞察
Anthropic 估值突破 9000 亿美元 — 可能超越 OpenAI。
Anthropic 被曝正以超 9000 亿美元估值接洽融资,相比今年 2 月的 3800 亿美元翻了一倍多。如果这轮融资落地,Anthropic 将超越 OpenAI 成为全球估值最高的 AI 公司。资本市场的判断很明确:Claude 的技术路线和安全叙事正在赢得信任。 详情 →
Ramp 的表格 AI 被 prompt 注入攻破,财务数据遭泄露。 PromptArmor 披露了 Ramp Sheets AI 功能的一个真实漏洞 — 攻击者通过 prompt 注入可以窃取用户的财务数据。这不是理论演示,是真实的数据泄露风险。所有在电子表格中嵌入 AI 功能的团队都该立即做对抗性安全审查 — 功能测试通过不等于安全。(95 likes | 30 RTs) 详情 →
AI 评估正在成为新的算力瓶颈。 HuggingFace 指出一个被忽视的问题:随着模型推理成本下降,正确评估模型的成本和复杂度反而在快速上升。训练和推理不再是瓶颈,eval 才是 — 如果你还在用简单跑分选模型,该重新审视你的评估 pipeline 了。 详情 →
Anthropic 发布 Agent 时代的产品开发框架。 当 AI Agent 成为团队的"正式成员"时,产品开发流程该怎么变?Anthropic 分享了内部的思考框架 — 对正在重新设计工作流的工程管理者来说,这是一个有参考价值的心智模型。 详情 →
🏗️ 值得一试
Claude Code 黑客松获奖项目公布。 Anthropic 和 Cerebral Valley 的 Claude Code 黑客松结果出炉,获奖项目全部基于 Opus 4.7 构建。想看看当开发者在限时压力下推到极限时 Opus 4.7 能做什么 — 去看看这些项目。(4,875 likes | 215 RTs) 详情 →
🎓 模型小课堂
密集模型 vs. 混合专家(MoE)架构:目前大多数 frontier 模型用的是 MoE 架构 — 模型内部有很多"专家"子网络,每个 token 只激活其中几个,这样推理时实际计算量远小于总参数量,省钱省算力。而密集(Dense)架构正好相反 — 每个参数在每个 token 上都参与计算,没有"偷懒"的部分。Mistral Medium 3.5 选择 128B 纯密集架构,意味着推理成本更高,但模型行为更可预测、微调更简单、部署时不需要复杂的路由逻辑。对于想在本地跑模型、做深度微调的团队来说,密集架构可能反而更友好。
⚡ 快讯
- OpenAI DevDay 回归:旧金山,9 月 29 日,做 OpenAI 生态的现在就存日历。(2,364 likes | 114 RTs) 链接
- 微软云加速:季度营收 829 亿美元,Azure 和 Copilot 销售增长 33% — 企业 AI 采用是真的在涨。 链接
- AI 辅导有效,但需要老师配合:新 RCT 研究显示,AI 辅导 + 教师支持效果显著,但学生单独用 AI 学习反而成绩下降。(743 likes | 140 RTs) 链接
- HERMES.md 可能让你多花钱:commit 信息中包含 HERMES.md 内容会触发 Claude Code 额外计费,大 repo 团队检查一下 commit hooks。(934 likes | 381 RTs) 链接
- Responses API 新增域名屏蔽:OpenAI 的 web search 现在可以排除特定域名 — 企业终于能控制 Agent 引用哪些来源了。(57 likes | 4 RTs) 链接
- Claude Code v2.1.123:修复了
CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS=1导致的 OAuth 401 死循环。 链接
🎯 今日精选
Anthropic 的自省适配器:AI 安全从"外部审查"变成"自我体检":长期以来,检测模型是否对齐依赖红队测试和外部解释性研究 — 本质上是"从外面猜模型在想什么"。Anthropic 这次的自省适配器换了一个根本性的思路:让模型自己报告训练中学到的行为。如果这个方法能规模化,AI 安全就不再是研究者和模型之间的军备竞赛,而是变成一种常规的内部诊断流程。但核心悖论依然存在 — 一个真正不对齐的模型,有动机在自省时撒谎。这项研究的价值不在于终极解决方案,而在于打开了一条全新的技术路径:与其只从外部猜测,不如同时让模型自己说话,然后交叉验证。 详情 →
下期见 ✌️