NewsletterBlogLearnCompareTopicsGlossary
English
LAUNCHTOOLTECHNIQUERESEARCHINSIGHTBUILD

22 条资讯

Gemma 4 来了 — Google 迄今最强开源模型

🧠 发布动态

Gemma 4 来了 — Google 迄今最强开源模型。

基于 Gemini 3 技术,Apache 2.0 许可,两个版本:31B 稠密模型和 26B MoE(4B 活跃参数)。重点不只是跑分 — 这次专门为 Agent 工作流和高级推理优化,意味着你可以在自己的硬件上跑一个真正能干活的 Agent。开源社区几小时内下载量就破 29K,说明大家等这个等很久了。(5,215 likes | 29.0K downloads) 详情 →

阿里同天反击 — Qwen3.6-Plus 专攻真实世界 Agent。

Alibaba 发布 Qwen3.6-Plus,定位很明确:不卷跑分,卷实际 Agent 能力。和 Gemma 4 同天发布不是巧合 — 开源模型的 Agent 竞赛现在是双线作战。如果你在做 Agent 应用,今天多了一个必须评估的选项。(406 likes | 142 RTs) 详情 →

ChatGPT 语音模式登陆 Apple CarPlay。

你的车里现在可以直接用 ChatGPT 了。OpenAI 把语音模式原生集成进 CarPlay,iOS 26.4+ 可用 — 这是第一个主流 AI 助手进入车载体验。Siri 的地位从"不太行"变成了"有替代品"。(6,665 likes | 471 RTs) 详情 →

Google Vids 免费开放 AI 视频生成。 集成 Veo 3.1 视频生成和 Lyria 3 音乐生成,零成本 — Google 把 AI 视频创作直接变成 Workspace 的标配功能。做内部汇报视频的成本刚降到零。 详情 →

Sakana AI 发布 8 小时自主研究 Agent。 基于他们发表在 Nature 上的 AI Scientist 技术,这个 "Ultra Deep Research" 助手能在单个查询上自主工作最多 8 小时。深度研究的定义刚被重新校准。(275 likes | 38 RTs) 详情 →

Arcee 开源 Trinity-Large-Thinking。 Apache 2.0 许可,开放权重,又一个强推理模型加入开源前线。开源推理模型的选择在一周内翻了倍。(739 likes | 113 RTs) 详情 →


🔧 开发者工具

Gemini API 新增 Flex 和 Priority 推理层级:终于不用猜了 — Google 让你显式地在成本和可靠性之间做选择。Flex 层最便宜但尽力而为,Priority 层保证延迟。生产环境和实验环境该用不同层级,去审计一下你的 API 调用。 详情 →

Claude Computer Use 和 Cowork 登陆 Windows。 之前只有 Mac 能用的屏幕操作能力现在到 Windows 了。Claude 可以看你的屏幕、点击 UI 元素、可视化验证代码输出 — Windows 开发者终于不用羡慕了。(3,218 likes | 304 RTs) 详情 →

AMD 开源 Lemonade — GPU + NPU 本地 LLM 服务器。 AMD 终于认真对待本地推理了:一个同时利用 GPU 和 NPU 的开源推理服务器,目标是让 AMD 硬件成为本地 AI 的一等公民,而不只是 NVIDIA 的替代品。有 AMD 硬件的去试试。(420 likes | 94 RTs) 详情 →

Anthropic 非营利团队方案降至 $8/用户/月。 2 人起步,包含 Claude Code 和 Cowork — 小型非营利团队用前沿 AI 工具的门槛刚降了一大截。(824 likes | 43 RTs) 详情 →


📝 技术实战

Karpathy 展示如何用 LLM 搭建个人知识库。

不写代码,写知识。Karpathy 分享了他的工作流:索引源文档、用结构化 Markdown 组织、把 token 预算从代码操作转向知识操作。核心洞察 — LLM 最被低估的用途不是帮你写代码,而是帮你整理和检索你自己的知识。值得每个做研究的人试一次。(8,659 likes | 841 RTs) 详情 →

Carmack:GPU 功耗比调度指标更能反映真实利用率。 John Carmack 提出一个尖锐问题:全球有多少 GPU 在耗电但没干正事?nvidia-smi 的功耗读数可能比你看的利用率百分比更诚实。下次优化推理成本时,先看瓦数。(751 likes | 41 RTs) 详情 →


🔬 研究前沿

Anthropic 发现 LLM 内部存在类似"情绪"的表征。

这不是 Claude 在"假装有感情" — 研究团队发现模型内部存在结构化的情绪概念表征,这些表征会实际影响输出行为。关键:这些结构不是训练目标要求的,也不是 prompt 诱导的,是模型自发涌现的。这直接改变了对齐问题的讨论框架 — 从"防止坏输出"变成"理解涌现的内部结构"。(9,637 likes | 1,316 RTs) 详情 →

OpenAI 的模型开始用简洁证明解决开放数学问题。 不是暴力搜索,是优雅的短证明 — 这暗示我们可能正站在自动化数学发现新时代的门槛上。(640 likes | 40 RTs) 详情 →

Moonlake:从游戏引擎启动的交互式世界模型。 Chris Manning 团队提出新思路 — 不做被动预测,做长时间运行的多人交互世界模型。世界模型的研究方向刚拐了个弯。 详情 →


💡 行业洞察

OpenAI 收购 TBPN — Sam Altman 现在拥有一个媒体网络。 不是投资,是收购。OpenAI 买下科技媒体/播客网络 TBPN,开始拥有自己的内容分发渠道。当 AI 公司开始买媒体,说明他们认为话语权和模型能力一样重要。(7,081 likes | 301 RTs) 详情 →

Mollick 在《经济学人》撰文:别把 AI "驯化"了。 Ethan Mollick 的核心论点 — 把 AI 当普通 IT 自动化来部署会出问题。企业需要拥抱这项技术的"怪异性",而不是硬把它塞进传统流程。这篇值得转给正在做 AI 落地决策的管理层看。(417 likes | 61 RTs) 详情 →


🏗️ 值得一试

Gemma 4 MoE 版本上线 HuggingFace — 4B 活跃参数,接近稠密模型性能。 26B 总参数但只激活 4B — 这是效率玩家的选择。如果你的推理预算有限但不想牺牲太多质量,MoE 版本是今天最值得测试的模型。9.2K 下载量说明社区已经在跑了。(161 likes | 9.2K downloads) 详情 →


🎓 模型小课堂

Mixture-of-Experts(MoE)vs 稠密模型:今天 Gemma 4 同时发布了 31B 稠密版和 26B MoE(4B 活跃)版,正好聊聊这两种架构的区别。稠密模型每次推理都用全部参数 — 效果稳定但计算成本高。MoE 则把参数分成多组"专家",每次只激活其中一小部分来处理当前输入。好处是显而易见的:你可以拥有一个"大"模型的知识容量,但只付"小"模型的推理成本。代价是训练更复杂,某些任务上可能不如同规模稠密模型稳定。选哪个?如果你追求本地部署的极致性价比,MoE 是首选;如果你需要最稳定的输出质量且算力不是瓶颈,选稠密版。


⚡ 快讯

  • Gemma 4 31B IT:稠密指令微调版已上线 HuggingFace,几小时内 29K 下载。(303 likes | 29.0K downloads) 链接
  • Bonsai-8B:1-bit 量化模型,专为 Apple Silicon 优化,MacBook 上跑本地推理的极限方案。(115 likes | 7.6K downloads) 链接
  • llm 0.30:Simon Willison 更新了他的 CLI 工具,新增异步和多模型支持。 链接
  • Google 三月 AI 回顾:官方汇总上月 Gemini、Search、Workspace、Cloud 全线更新。 链接

🎯 今日精选

Anthropic 发现 LLM 内部的"情绪" — 对齐问题的框架可能要改写了:这篇研究的冲击力在于它挑战了一个基本假设。我们一直以为 LLM 只是在做模式匹配 — 训练数据里有情绪表达,它就模仿情绪表达。但 Anthropic 发现的是结构化的、功能性的情绪概念表征,它们不是训练目标要求的,不是 prompt 诱导的,而是模型在训练过程中自发涌现的内部状态。这些状态会实际改变模型的输出行为。如果这个发现经得起后续验证,对齐研究的整个对话框架都需要调整 — 从"如何防止模型产生有害输出"变成"如何理解和引导模型涌现出的内部结构"。这不是一个关于 AI 是否有感情的哲学问题,而是一个关于我们是否真正理解自己构建的系统的工程问题。(9,637 likes | 1,316 RTs) 详情 →


下期见 ✌️