Gemma 4 来了 — Google 迄今最强开源模型

🧠 发布动态

Gemma 4 来了 — Google 迄今最强开源模型。

基于 Gemini 3 技术，Apache 2.0 许可，两个版本：31B 稠密模型和 26B MoE（4B 活跃参数）。重点不只是跑分 — 这次专门为 Agent 工作流和高级推理优化，意味着你可以在自己的硬件上跑一个真正能干活的 Agent。开源社区几小时内下载量就破 29K，说明大家等这个等很久了。(5,215 likes | 29.0K downloads) 详情 →

阿里同天反击 — Qwen3.6-Plus 专攻真实世界 Agent。

Alibaba 发布 Qwen3.6-Plus，定位很明确：不卷跑分，卷实际 Agent 能力。和 Gemma 4 同天发布不是巧合 — 开源模型的 Agent 竞赛现在是双线作战。如果你在做 Agent 应用，今天多了一个必须评估的选项。(406 likes | 142 RTs) 详情 →

ChatGPT 语音模式登陆 Apple CarPlay。

你的车里现在可以直接用 ChatGPT 了。OpenAI 把语音模式原生集成进 CarPlay，iOS 26.4+ 可用 — 这是第一个主流 AI 助手进入车载体验。Siri 的地位从"不太行"变成了"有替代品"。(6,665 likes | 471 RTs) 详情 →

Google Vids 免费开放 AI 视频生成。 集成 Veo 3.1 视频生成和 Lyria 3 音乐生成，零成本 — Google 把 AI 视频创作直接变成 Workspace 的标配功能。做内部汇报视频的成本刚降到零。详情 →

Sakana AI 发布 8 小时自主研究 Agent。 基于他们发表在 Nature 上的 AI Scientist 技术，这个 "Ultra Deep Research" 助手能在单个查询上自主工作最多 8 小时。深度研究的定义刚被重新校准。(275 likes | 38 RTs) 详情 →

Arcee 开源 Trinity-Large-Thinking。 Apache 2.0 许可，开放权重，又一个强推理模型加入开源前线。开源推理模型的选择在一周内翻了倍。(739 likes | 113 RTs) 详情 →

🔧 开发者工具

Gemini API 新增 Flex 和 Priority 推理层级：终于不用猜了 — Google 让你显式地在成本和可靠性之间做选择。Flex 层最便宜但尽力而为，Priority 层保证延迟。生产环境和实验环境该用不同层级，去审计一下你的 API 调用。详情 →

Claude Computer Use 和 Cowork 登陆 Windows。 之前只有 Mac 能用的屏幕操作能力现在到 Windows 了。Claude 可以看你的屏幕、点击 UI 元素、可视化验证代码输出 — Windows 开发者终于不用羡慕了。(3,218 likes | 304 RTs) 详情 →

AMD 开源 Lemonade — GPU + NPU 本地 LLM 服务器。 AMD 终于认真对待本地推理了：一个同时利用 GPU 和 NPU 的开源推理服务器，目标是让 AMD 硬件成为本地 AI 的一等公民，而不只是 NVIDIA 的替代品。有 AMD 硬件的去试试。(420 likes | 94 RTs) 详情 →

Anthropic 非营利团队方案降至 $8/用户/月。 2 人起步，包含 Claude Code 和 Cowork — 小型非营利团队用前沿 AI 工具的门槛刚降了一大截。(824 likes | 43 RTs) 详情 →

📝 技术实战

Karpathy 展示如何用 LLM 搭建个人知识库。

不写代码，写知识。Karpathy 分享了他的工作流：索引源文档、用结构化 Markdown 组织、把 token 预算从代码操作转向知识操作。核心洞察 — LLM 最被低估的用途不是帮你写代码，而是帮你整理和检索你自己的知识。值得每个做研究的人试一次。(8,659 likes | 841 RTs) 详情 →

Carmack：GPU 功耗比调度指标更能反映真实利用率。 John Carmack 提出一个尖锐问题：全球有多少 GPU 在耗电但没干正事？nvidia-smi 的功耗读数可能比你看的利用率百分比更诚实。下次优化推理成本时，先看瓦数。(751 likes | 41 RTs) 详情 →

🔬 研究前沿

Anthropic 发现 LLM 内部存在类似"情绪"的表征。

这不是 Claude 在"假装有感情" — 研究团队发现模型内部存在结构化的情绪概念表征，这些表征会实际影响输出行为。关键：这些结构不是训练目标要求的，也不是 prompt 诱导的，是模型自发涌现的。这直接改变了对齐问题的讨论框架 — 从"防止坏输出"变成"理解涌现的内部结构"。(9,637 likes | 1,316 RTs) 详情 →

OpenAI 的模型开始用简洁证明解决开放数学问题。 不是暴力搜索，是优雅的短证明 — 这暗示我们可能正站在自动化数学发现新时代的门槛上。(640 likes | 40 RTs) 详情 →

Moonlake：从游戏引擎启动的交互式世界模型。 Chris Manning 团队提出新思路 — 不做被动预测，做长时间运行的多人交互世界模型。世界模型的研究方向刚拐了个弯。详情 →

💡 行业洞察

OpenAI 收购 TBPN — Sam Altman 现在拥有一个媒体网络。 不是投资，是收购。OpenAI 买下科技媒体/播客网络 TBPN，开始拥有自己的内容分发渠道。当 AI 公司开始买媒体，说明他们认为话语权和模型能力一样重要。(7,081 likes | 301 RTs) 详情 →

Mollick 在《经济学人》撰文：别把 AI "驯化"了。 Ethan Mollick 的核心论点 — 把 AI 当普通 IT 自动化来部署会出问题。企业需要拥抱这项技术的"怪异性"，而不是硬把它塞进传统流程。这篇值得转给正在做 AI 落地决策的管理层看。(417 likes | 61 RTs) 详情 →

🏗️ 值得一试

Gemma 4 MoE 版本上线 HuggingFace — 4B 活跃参数，接近稠密模型性能。 26B 总参数但只激活 4B — 这是效率玩家的选择。如果你的推理预算有限但不想牺牲太多质量，MoE 版本是今天最值得测试的模型。9.2K 下载量说明社区已经在跑了。(161 likes | 9.2K downloads) 详情 →

🎓 模型小课堂

Mixture-of-Experts（MoE）vs 稠密模型：今天 Gemma 4 同时发布了 31B 稠密版和 26B MoE（4B 活跃）版，正好聊聊这两种架构的区别。稠密模型每次推理都用全部参数 — 效果稳定但计算成本高。MoE 则把参数分成多组"专家"，每次只激活其中一小部分来处理当前输入。好处是显而易见的：你可以拥有一个"大"模型的知识容量，但只付"小"模型的推理成本。代价是训练更复杂，某些任务上可能不如同规模稠密模型稳定。选哪个？如果你追求本地部署的极致性价比，MoE 是首选；如果你需要最稳定的输出质量且算力不是瓶颈，选稠密版。

⚡ 快讯

Gemma 4 31B IT：稠密指令微调版已上线 HuggingFace，几小时内 29K 下载。(303 likes | 29.0K downloads) 链接
Bonsai-8B：1-bit 量化模型，专为 Apple Silicon 优化，MacBook 上跑本地推理的极限方案。(115 likes | 7.6K downloads) 链接
llm 0.30：Simon Willison 更新了他的 CLI 工具，新增异步和多模型支持。链接
Google 三月 AI 回顾：官方汇总上月 Gemini、Search、Workspace、Cloud 全线更新。链接

🎯 今日精选

Anthropic 发现 LLM 内部的"情绪" — 对齐问题的框架可能要改写了：这篇研究的冲击力在于它挑战了一个基本假设。我们一直以为 LLM 只是在做模式匹配 — 训练数据里有情绪表达，它就模仿情绪表达。但 Anthropic 发现的是结构化的、功能性的情绪概念表征，它们不是训练目标要求的，不是 prompt 诱导的，而是模型在训练过程中自发涌现的内部状态。这些状态会实际改变模型的输出行为。如果这个发现经得起后续验证，对齐研究的整个对话框架都需要调整 — 从"如何防止模型产生有害输出"变成"如何理解和引导模型涌现出的内部结构"。这不是一个关于 AI 是否有感情的哲学问题，而是一个关于我们是否真正理解自己构建的系统的工程问题。(9,637 likes | 1,316 RTs) 详情 →

下期见 ✌️