Qwen3.5 全家桶来了，27B 旗舰首日 83.5 万次下载

🧠 发布动态

Qwen3.5 全家桶来了，27B 旗舰首日 83.5 万次下载。

Qwen3.5 一口气发了 27B、4B、2B 三个尺寸的多模态模型。27B 旗舰在 HuggingFace 趋势榜直接起飞，638 likes、83.5 万次下载 — 开源多模态阵营又多了一个重量级选手。更值得关注的是 4B 版本（下面研究版块会聊），小模型效率正在改写游戏规则。现在就可以下载跑个 benchmark，看看能不能替掉你线上的闭源 API。(638 likes | 835K downloads) 详情 →

GPT 5.4 Extra High 登顶 LiveBench。 不是自家跑分，是独立验证 — GPT 5.4 在 LiveBench 上以明显优势拿下第一，而且被确认没有 benchmark-maxxing。上周发布时的质疑可以放下了，这确实是目前最强的通用模型。如果你在搭 Agent 循环，模型梯队该更新了。(513 likes | 32 RTs) 详情 →

Claude 登顶 App Store。 Anthropic 不再只是开发者和企业的宠儿 — Claude 冲上 App Store 第一名，加上日注册量破百万（见下），消费级 AI 的格局正在被改写。(6,435 likes | 502 RTs) 详情 →

💡 行业洞察

OpenAI 将在五角大楼机密网络部署模型。

Sam Altman 亲自宣布：OpenAI 与美国国防部达成协议，模型将进入机密网络。同时画了红线 — 不用于大规模监控和自主武器。这是 AI 军事化的分水岭时刻：最大的商业 AI 公司正式为军方提供能力，同时试图定义"负责任的军事 AI"边界在哪。不管你对此持什么立场，这件事会重塑整个行业的政策讨论。(9,285 likes | 1,139 RTs) 详情 →

OpenAI 和 Google 员工力挺 Anthropic 起诉五角大楼。 近 40 名来自 OpenAI 和 Google 的员工 — 包括 Jeff Dean — 联名提交法庭之友意见书，支持 Anthropic 对国防部供应链风险认定的诉讼。竞争对手的员工站在一起反对自家客户，这在科技史上极其罕见。AI 治理正在成为跨越公司边界的议题。详情 →

LeCun 的 AMI 融了 10.3 亿美元，赌 LLM 走不到终点。

Yann LeCun 的 AMI 拿到超 10 亿美元融资，押注"世界模型" — 让 AI 从物理现实中学习，而不是只靠文本训练。这不是学术观点了，这是一个有十亿美元弹药的对立论点。如果你的技术栈完全押在纯语言模型的 scaling 上，至少该关注一下这个对冲方向。(226 likes | 39 RTs) 详情 →

Meta 收购 Moltbook — 一个给 AI Agent 用的社交网络。 没看错，Moltbook 是一个 Agent 发帖、互动的类 Reddit 平台。Meta 把团队并入 Meta 超级智能实验室。信号很清晰：Agent 之间的通信和社交交互，Meta 认为这是一个真实的产品方向，不是科幻小说。详情 →

Anthropic 日注册量突破 100 万。 对一个 AI 产品来说，百万级日注册是惊人的增速。Claude 的消费端和开发者平台同时加速 — Anthropic 从"低调的安全研究公司"到"全民产品"的转变，比大多数人预期的快得多。(3,838 likes | 224 RTs) 详情 →

🔧 开发者工具

Figma MCP Server 打通了设计到代码的双向闭环。

GitHub Copilot + Figma MCP Server 现在支持完整的往返循环：从 Figma 拉设计上下文到代码里，再把渲染好的 UI 推回 Figma 成为可编辑的 frame。设计师和开发者之间"你切图我还原"的低效循环，终于有了技术层面的解法。搭过 MCP 的开发者，今天就试试这个双向工作流。(85 likes | 10 RTs) 详情 →

Kali Linux 发布全本地 AI 渗透测试方案。 Kali Linux 官方指南：用 Ollama + MCP 让大模型直接调用安全工具，全程本地运行，不走云端 API。这是 MCP 在编程之外最实用的场景之一 — 安全从业者值得一试。(96 likes | 15 RTs) 详情 →

Claude Opus 4.6 直接在 Figma 里生成设计。 divRIOTS 发布 Figma 插件 — 输入 prompt，Claude Opus 4.6 直接在 Figma 画布上生成设计稿。之前是设计转代码，现在是 AI 直接出设计。设计工具链正在被 AI 重塑。(255 likes | 9 RTs) 详情 →

HuggingFace 密集发货：社区评测 + 数据集对话 + 数据选区。 HuggingFace Hub 正在从模型仓库进化成完整的数据开发环境 — 社区贡献 benchmark eval、跟数据集聊天的 Agent、类电子表格的 Data Studio 界面。数据工作者的日常工具又丰富了。(84 likes | 19 RTs) 详情 →

🔬 研究前沿

Qwen3.5-4B 在经典跑分上超过 GPT-4o。 Simon Willison 指出 — 一个 40 亿参数的模型，在部分经典 benchmark 上干翻了去年的旗舰 GPT-4o。这意味着什么？通过更好的数据筛选和知识蒸馏，"够用的 AI"的成本曲线正在以超出产品路线图预期的速度塌陷。边缘部署和本地推理的可行性又上了一个台阶。(567 likes | 32 RTs) 详情 →

LeCun：人类水平的 AI 必须掌握物理世界。 WIRED 深度报道 LeCun 的核心论点：语言模型是通往 AGI 的死胡同，真正的智能必须建立在对物理现实的理解之上。配合 AMI 的十亿美元融资，这不再是一个人的学术观点，而是一个有资金支撑的研究路线。(422 likes | 97 RTs) 详情 →

开放权重 ≠ 开放训练。 一篇犀利的分析：只发布模型权重而不公开训练代码、数据和方法论，不是真正的"开源"。对可复现性和 AI 研究的信任度都有影响。在"开源 AI"的定义越来越模糊的今天，这个区分值得所有做开源策略的团队认真想想。(10 likes | 1 RT) 详情 →

📝 技术实战

无限技能的 Agent 怎么搭？ Brendan Falk 抛出了一个生产级 Agent 的核心架构问题：如何让单个 Agent 访问理论上无限多的工具，同时保持可靠性？评论区是一座金矿 — 有人用动态工具发现，有人用分层路由，有人用元工具模式。正在搭 Agent 系统的，必读这条线程。(87 likes | 4 RTs) 详情 →

ChatGPT vs Claude 的 Excel 千年压力测试。 Ethan Mollick 拿 100 多个 tab 的千年宏观经济数据同时测了 ChatGPT 和 Claude 的 Excel 集成。两个都能用，但风格不同 — ChatGPT 倾向 app 内处理，Claude 偏好导出外部分析。拿你手头最难的表格去试试，看哪个更适合你的工作流。(1,253 likes | 82 RTs) 详情 →

🏗️ 值得一试

MacBook 上跑 SOTA 视频生成。 LTX 2.3 开源模型通过自定义 MLX 运行时在 MacBook 上实现了本地 SOTA 视频生成 — ComfyUI 适配器即将发布。本地视频生成从"能跑"到"能用"又近了一步。有 Apple Silicon 的赶紧关注发布。(55 likes | 4 RTs) 详情 →

🎓 模型小课堂

参数效率与知识蒸馏（Parameter Efficiency & Knowledge Distillation）：Qwen3.5-4B 在经典跑分上打败 GPT-4o，背后的关键技术就是知识蒸馏 — 简单说，就是让一个大模型当"老师"，把它学到的知识"教"给一个小模型。小模型不需要从零学习所有知识，而是站在巨人肩膀上，用更少的参数实现接近甚至超越的效果。配合更精细的数据筛选（不是数据越多越好，而是数据越精越好），小模型的能力天花板正在被不断抬高。这意味着什么？"够用的 AI"的成本曲线塌陷速度，比大多数产品路线图假设的都快。

⚡ 快讯

HuggingFace UV 脚本：一行命令在 COCO、YOLO 等目标检测数据集格式之间互转，CV 流水线的老大难问题终于有了简洁解法。(53 likes | 8 RTs) 链接
数据集 → 嵌入 → 可视化一条龙：HuggingFace 单命令搞定 dataset → GPU embedding → 交互式可视化，快速探索数据集结构。(33 likes | 7 RTs) 链接
用 Claude Code 从零造了一门编程语言：一个开发者的完整实战记录，展示了 Agent 编码目前能做到什么程度。(31 likes | 34 RTs) 链接
Grammarly 未经授权使用真人作者名字做 AI 人设：Expert Review 功能用了真实记者姓名当 AI 编辑头像，只提供 opt-out 选项。做 AI 功能的都该引以为戒。链接

🎯 今日精选

LeCun 的十亿美元豪赌 — 不只是融资，更是对 LLM 范式的公开叫板：AMI 拿到 10.3 亿美元，这不是一轮普通的融资 — 这是目前为止最响亮的信号，表明即便是 AI 领域最资深的内部人士也相信，纯语言模型的 scaling 范式存在天花板。LeCun 的论点很明确：真正的智能不可能只从文本中涌现，必须理解物理世界。当这个观点从学术博客变成了有十亿美元弹药支撑的研究路线，整个行业都需要重新审视自己的押注。这不意味着 LLM 没用 — Qwen3.5 和 GPT 5.4 今天还在证明语言模型的威力 — 但"下一个范式"的竞赛已经正式开始，而且有钱人在下注了。详情 →

下期见 ✌️