NewsletterBlogLearnCompareTopicsGlossary
English
LAUNCHRESEARCHTECHNIQUETOOLINSIGHTBUILD

22 条资讯

Gemma 4 12B 来了 — 不要编码器,一个模型通吃多模态

🧠 发布动态

Gemma 4 12B 来了 — 不要编码器,一个模型通吃多模态。

Google DeepMind 开源 Gemma 4 12B,最大的亮点不是参数量而是架构:encoder-free。没有单独的视觉编码器,没有 CLIP 适配器,文本、图片、视频全部在一个统一的 decoder-only Transformer 里处理。这意味着什么?微调更简单,部署更轻量,跨模态推理不再是把不同表征硬拼在一起。开放权重,Ollama 和 transformers v5.10.1 已原生支持,现在就能本地跑。(8,272 likes | 1,099 RTs) 详情 →

Ideogram 4.0 开源了 — 策略 180 度大转弯。

之前一直走封闭路线的 Ideogram 突然把 4.0 版本以开放权重发布,号称最强开源图像生成模型。可下载、可微调、完全自主可控。从闭源到开源,这不只是技术决策,是商业策略的根本转向 — 在 Flux、Stable Diffusion 3 的开源压力下,Ideogram 选择了加入而不是对抗。(4,186 likes | 462 RTs) 详情 →

GPT-Rosalind 扩展企业级生命科学能力。 OpenAI 给 GPT-Rosalind 加了新功能 — 这是专为生命科学研究打造的模型系列,结合 GPT-5.5 的 Agent 编码能力和药物发现领域知识。做生物信息学或药物研发 pipeline 的团队值得评估。(1,753 likes | 173 RTs) 详情 →

Anthropic 正式建立合作伙伴生态。 推出 Services Track 和 Partner Hub,认证实施合作伙伴。信号很明确:Anthropic 正从"卖模型"转向"建平台",企业客户现在可以找到经过认证的集成商来落地 Claude。 详情 →


🔬 研究前沿

Anthropic 用 832 个真实恶意账户画了一张 AI 威胁地图。

这可能是目前最全面的公开数据集 — Anthropic 把一整年的 AI 恶意使用案例映射到了 MITRE ATT&CK 框架上。核心发现:真实的 AI 威胁面和政策讨论中的假设风险差距巨大。攻击者用 AI 做的事比想象中更无聊也更实际 — 主要是提效而不是发明新攻击。安全团队应该重新排优先级了。(553 likes | 71 RTs) 详情 →

微软 MAI 技术报告:零合成数据训练。 swyx 指出微软 MAI 报告罕见地透明 — 训练完全不用合成数据。在大家都在猜"到底用了多少合成数据"的今天,这份报告的坦诚值得细读,光训练方法论部分就够写几篇论文。(1,839 likes | 229 RTs) 详情 →

什么是 mid-training?模型差异的关键解释。 介于预训练和后训练之间的 mid-training 阶段越来越重要 — 基础模型在这个阶段用领域数据继续训练,然后才做 RLHF。理解这个阶段就能理解为什么参数量相近的 Gemma 4 和 MAI 表现截然不同。(384 likes | 50 RTs) 详情 →

Axiom Math:让 AI 输出可证明正确。 Latent Space 采访了 Axiom Math 团队,聊形式化验证如何让 AI 生成的内容从"大概率对"变成"可证明对"。对可靠性要求极高的场景(金融、医疗、法律),这是未来方向。 详情 →


📝 技术实战

Claude Code Skills 架构深度拆解 — 官方"缺失手册"来了。

Anthropic 工程师讲解了 Claude Code 内部 Skills 的工作原理 — 可复用、可组合的 Agent 行为架构。如果你在用 Claude Code 构建工作流但总觉得哪里没打通,这篇就是你缺的那块拼图。核心概念:Skills 不是"预设 prompt",而是带上下文、带工具绑定的完整行为单元。 详情 →

Anthropic 用 Claude 替代内部数据仪表盘。 自家团队吃自家狗粮 — Anthropic 展示了如何用 Claude 做自助数据分析,用对话查询替代传统 dashboard。实际落地的模式比宣传材料有说服力得多。 详情 →


🔧 开发者工具

Claude Cowork 官方多 Agent 实战指南。 Cowork 是 Claude 里的 Agent 标签页,能派生子 Agent 循环执行任务直到完成。这份官方指南给出了多 Agent 委派的实用模式 — 从简单的并行搜索到复杂的分阶段审查。 详情 →

Transformers v5.10.1 原生支持 Gemma 4。 配合今天的 Gemma 4 发布,HuggingFace 同步更新了 transformers 库,包括多 token 预测(multi-token prediction)支持。框架端准备就绪,生产 pipeline 可以直接用。 详情 →

Claude Code v2.1.162:Agent 可见性提升。 新增 waitingFor 显示阻塞状态,/effort 设置跨会话持久化,Grep/Glob 在原生构建上修复。都是小改动,但日常体验会好不少。 详情 →


💡 行业洞察

Uber 每月 1500 美元 AI 上限 — 全行业需要的定价信号。 Simon Willison 指出,Uber 给每个员工的 AI 工具月支出设了 $1,500 上限。这是第一个大型科技公司公开的 AI 编码工具价值评估数据点。你的团队每人每月在 AI 工具上花多少?现在有了一个参照系。(452 likes | 42 RTs) 详情 →

Claude Mythos 提前七个月击败超级预测者。 Mollick 指出,超级预测者(superforecasters)预测到 2026 年底 AI Agent 能完成 3-4 小时的 METR 任务 — Claude Mythos 五月份就做到了。AI 进展的速度正在超过最聪明的专家预测。(351 likes | 29 RTs) 详情 →

Ted Chiang 在《大西洋月刊》下了定论:AI 不具备意识。 不管你同不同意,作为 AI 与文学交叉领域最受尊重的声音,Ted Chiang 的这篇文章会塑造非技术公众未来几年对 AI 的认知方式。值得完整阅读,哪怕只是为了理解"对面"在想什么。(159 likes | 243 RTs) 详情 →

Meta 造了个 $200/月的消费级 vibe-coding Agent "Hatch"。 内部文件显示 Meta 正在建一个面向普通用户的 AI 应用构建工具 — 用自然语言描述你想要什么,Hatch 帮你建。又一个大厂入场 AI 驱动的应用生成赛道。(84 likes | 6 RTs) 详情 →


🏗️ 值得一试

Gemma 4 12B 指令调优版已上线 HuggingFace。 模型卡已发布,Unsloth 的 GGUF 量化版已就绪 — 想在本地跑 Gemma 4 的,现在就可以下载。今天 HuggingFace 上涨最快的模型。(156 likes | 463 downloads) 详情 →


🎓 模型小课堂

Encoder-Free 多模态架构:传统多模态模型是"拼装"的 — 文本用一个 Transformer,图片用一个视觉编码器(比如 CLIP),然后通过适配器把两者的表征拼在一起。Gemma 4 的做法不同:只用一个 decoder-only Transformer,文本、图片、视频全部直接输入,在同一个注意力空间里处理。好处是什么?首先,少了视觉编码器这个大组件,部署体积更小,微调也更简单 — 不用分别调两个模型再对齐。更重要的是,模型可以在一个统一的注意力空间里原生地跨模态推理,而不是事后把不同模态的理解"缝合"在一起。


⚡ 快讯

  • Project Glasswing 扩展:Anthropic 将 Claude Mythos Preview 访问扩展到 150+ 组织,覆盖 15+ 国家。(3,136 likes | 328 RTs) 链接
  • OpenAI Python SDK v2.41.0:新增 Responses 和 Chat Completions API 的内置审核端点,不用外部工具就能做内容过滤。 链接
  • DPO 不只是聊天机器人能用:HuggingFace 博客探索 DPO 在代码生成、摘要和结构化输出上的应用,想要 alignment 又嫌 RLHF 太复杂的团队看这篇。 链接
  • Sam Altman 公开支持新 AI 行政令:称前沿开发与安全之间的平衡"恰到好处",考虑到 OpenAI 此前与监管的紧张关系,这个背书不寻常。(2,463 likes | 148 RTs) 链接

🎯 今日精选

832 个真实恶意账户告诉你:AI 威胁长什么样,和你想的不一样。 Anthropic 把一整年捕获的 832 个恶意账户行为映射到 MITRE ATT&CK 框架 — 这是目前最全面的真实 AI 威胁公开数据集。最值得注意的发现是:政策讨论中占据主流的那些"假设性风险"(自主武器、生物威胁)和攻击者实际用 AI 做的事之间存在巨大鸿沟。现实中,攻击者主要用 AI 做侦察、社工钓鱼、恶意代码生成 — 不是什么科幻场景,而是把已有攻击手段变得更快更便宜。这个"感知风险"与"真实风险"之间的差距,应该迫使每个安全团队重新审视优先级:与其担心还没发生的事,不如先堵住 AI 正在被用来加速的那些攻击路径。 详情 →


下期见 ✌️