Gemma 4 12B 来了 — 不要编码器，一个模型通吃多模态

🧠 发布动态

Gemma 4 12B 来了 — 不要编码器，一个模型通吃多模态。

Google DeepMind 开源 Gemma 4 12B，最大的亮点不是参数量而是架构：encoder-free。没有单独的视觉编码器，没有 CLIP 适配器，文本、图片、视频全部在一个统一的 decoder-only Transformer 里处理。这意味着什么？微调更简单，部署更轻量，跨模态推理不再是把不同表征硬拼在一起。开放权重，Ollama 和 transformers v5.10.1 已原生支持，现在就能本地跑。(8,272 likes | 1,099 RTs) 详情 →

Ideogram 4.0 开源了 — 策略 180 度大转弯。

之前一直走封闭路线的 Ideogram 突然把 4.0 版本以开放权重发布，号称最强开源图像生成模型。可下载、可微调、完全自主可控。从闭源到开源，这不只是技术决策，是商业策略的根本转向 — 在 Flux、Stable Diffusion 3 的开源压力下，Ideogram 选择了加入而不是对抗。(4,186 likes | 462 RTs) 详情 →

GPT-Rosalind 扩展企业级生命科学能力。 OpenAI 给 GPT-Rosalind 加了新功能 — 这是专为生命科学研究打造的模型系列，结合 GPT-5.5 的 Agent 编码能力和药物发现领域知识。做生物信息学或药物研发 pipeline 的团队值得评估。(1,753 likes | 173 RTs) 详情 →

Anthropic 正式建立合作伙伴生态。 推出 Services Track 和 Partner Hub，认证实施合作伙伴。信号很明确：Anthropic 正从"卖模型"转向"建平台"，企业客户现在可以找到经过认证的集成商来落地 Claude。详情 →

🔬 研究前沿

Anthropic 用 832 个真实恶意账户画了一张 AI 威胁地图。

这可能是目前最全面的公开数据集 — Anthropic 把一整年的 AI 恶意使用案例映射到了 MITRE ATT&CK 框架上。核心发现：真实的 AI 威胁面和政策讨论中的假设风险差距巨大。攻击者用 AI 做的事比想象中更无聊也更实际 — 主要是提效而不是发明新攻击。安全团队应该重新排优先级了。(553 likes | 71 RTs) 详情 →

微软 MAI 技术报告：零合成数据训练。 swyx 指出微软 MAI 报告罕见地透明 — 训练完全不用合成数据。在大家都在猜"到底用了多少合成数据"的今天，这份报告的坦诚值得细读，光训练方法论部分就够写几篇论文。(1,839 likes | 229 RTs) 详情 →

什么是 mid-training？模型差异的关键解释。 介于预训练和后训练之间的 mid-training 阶段越来越重要 — 基础模型在这个阶段用领域数据继续训练，然后才做 RLHF。理解这个阶段就能理解为什么参数量相近的 Gemma 4 和 MAI 表现截然不同。(384 likes | 50 RTs) 详情 →

Axiom Math：让 AI 输出可证明正确。 Latent Space 采访了 Axiom Math 团队，聊形式化验证如何让 AI 生成的内容从"大概率对"变成"可证明对"。对可靠性要求极高的场景（金融、医疗、法律），这是未来方向。详情 →

📝 技术实战

Claude Code Skills 架构深度拆解 — 官方"缺失手册"来了。

Anthropic 工程师讲解了 Claude Code 内部 Skills 的工作原理 — 可复用、可组合的 Agent 行为架构。如果你在用 Claude Code 构建工作流但总觉得哪里没打通，这篇就是你缺的那块拼图。核心概念：Skills 不是"预设 prompt"，而是带上下文、带工具绑定的完整行为单元。详情 →

Anthropic 用 Claude 替代内部数据仪表盘。 自家团队吃自家狗粮 — Anthropic 展示了如何用 Claude 做自助数据分析，用对话查询替代传统 dashboard。实际落地的模式比宣传材料有说服力得多。详情 →

🔧 开发者工具

Claude Cowork 官方多 Agent 实战指南。 Cowork 是 Claude 里的 Agent 标签页，能派生子 Agent 循环执行任务直到完成。这份官方指南给出了多 Agent 委派的实用模式 — 从简单的并行搜索到复杂的分阶段审查。详情 →

Transformers v5.10.1 原生支持 Gemma 4。 配合今天的 Gemma 4 发布，HuggingFace 同步更新了 transformers 库，包括多 token 预测（multi-token prediction）支持。框架端准备就绪，生产 pipeline 可以直接用。详情 →

Claude Code v2.1.162：Agent 可见性提升。 新增 waitingFor 显示阻塞状态，/effort 设置跨会话持久化，Grep/Glob 在原生构建上修复。都是小改动，但日常体验会好不少。详情 →

💡 行业洞察

Uber 每月 1500 美元 AI 上限 — 全行业需要的定价信号。 Simon Willison 指出，Uber 给每个员工的 AI 工具月支出设了 $1,500 上限。这是第一个大型科技公司公开的 AI 编码工具价值评估数据点。你的团队每人每月在 AI 工具上花多少？现在有了一个参照系。(452 likes | 42 RTs) 详情 →

Claude Mythos 提前七个月击败超级预测者。 Mollick 指出，超级预测者（superforecasters）预测到 2026 年底 AI Agent 能完成 3-4 小时的 METR 任务 — Claude Mythos 五月份就做到了。AI 进展的速度正在超过最聪明的专家预测。(351 likes | 29 RTs) 详情 →

Ted Chiang 在《大西洋月刊》下了定论：AI 不具备意识。 不管你同不同意，作为 AI 与文学交叉领域最受尊重的声音，Ted Chiang 的这篇文章会塑造非技术公众未来几年对 AI 的认知方式。值得完整阅读，哪怕只是为了理解"对面"在想什么。(159 likes | 243 RTs) 详情 →

Meta 造了个 $200/月的消费级 vibe-coding Agent "Hatch"。 内部文件显示 Meta 正在建一个面向普通用户的 AI 应用构建工具 — 用自然语言描述你想要什么，Hatch 帮你建。又一个大厂入场 AI 驱动的应用生成赛道。(84 likes | 6 RTs) 详情 →

🏗️ 值得一试

Gemma 4 12B 指令调优版已上线 HuggingFace。 模型卡已发布，Unsloth 的 GGUF 量化版已就绪 — 想在本地跑 Gemma 4 的，现在就可以下载。今天 HuggingFace 上涨最快的模型。(156 likes | 463 downloads) 详情 →

🎓 模型小课堂

Encoder-Free 多模态架构：传统多模态模型是"拼装"的 — 文本用一个 Transformer，图片用一个视觉编码器（比如 CLIP），然后通过适配器把两者的表征拼在一起。Gemma 4 的做法不同：只用一个 decoder-only Transformer，文本、图片、视频全部直接输入，在同一个注意力空间里处理。好处是什么？首先，少了视觉编码器这个大组件，部署体积更小，微调也更简单 — 不用分别调两个模型再对齐。更重要的是，模型可以在一个统一的注意力空间里原生地跨模态推理，而不是事后把不同模态的理解"缝合"在一起。

⚡ 快讯

Project Glasswing 扩展：Anthropic 将 Claude Mythos Preview 访问扩展到 150+ 组织，覆盖 15+ 国家。(3,136 likes | 328 RTs) 链接
OpenAI Python SDK v2.41.0：新增 Responses 和 Chat Completions API 的内置审核端点，不用外部工具就能做内容过滤。链接
DPO 不只是聊天机器人能用：HuggingFace 博客探索 DPO 在代码生成、摘要和结构化输出上的应用，想要 alignment 又嫌 RLHF 太复杂的团队看这篇。链接
Sam Altman 公开支持新 AI 行政令：称前沿开发与安全之间的平衡"恰到好处"，考虑到 OpenAI 此前与监管的紧张关系，这个背书不寻常。(2,463 likes | 148 RTs) 链接

🎯 今日精选

832 个真实恶意账户告诉你：AI 威胁长什么样，和你想的不一样。 Anthropic 把一整年捕获的 832 个恶意账户行为映射到 MITRE ATT&CK 框架 — 这是目前最全面的真实 AI 威胁公开数据集。最值得注意的发现是：政策讨论中占据主流的那些"假设性风险"（自主武器、生物威胁）和攻击者实际用 AI 做的事之间存在巨大鸿沟。现实中，攻击者主要用 AI 做侦察、社工钓鱼、恶意代码生成 — 不是什么科幻场景，而是把已有攻击手段变得更快更便宜。这个"感知风险"与"真实风险"之间的差距，应该迫使每个安全团队重新审视优先级：与其担心还没发生的事，不如先堵住 AI 正在被用来加速的那些攻击路径。详情 →

下期见 ✌️