NewsletterBlogGlossary
LAUNCHRESEARCHINSIGHTTOOLBUILDTECHNIQUE

22 条资讯

Qwen3.5 全家桶来了,27B 旗舰首日 83.5 万次下载

🧠 发布动态

Qwen3.5 全家桶来了,27B 旗舰首日 83.5 万次下载。

Qwen3.5 一口气发了 27B、4B、2B 三个尺寸的多模态模型。27B 旗舰在 HuggingFace 趋势榜直接起飞,638 likes、83.5 万次下载 — 开源多模态阵营又多了一个重量级选手。更值得关注的是 4B 版本(下面研究版块会聊),小模型效率正在改写游戏规则。现在就可以下载跑个 benchmark,看看能不能替掉你线上的闭源 API。(638 likes | 835K downloads) 详情 →

GPT 5.4 Extra High 登顶 LiveBench。 不是自家跑分,是独立验证 — GPT 5.4 在 LiveBench 上以明显优势拿下第一,而且被确认没有 benchmark-maxxing。上周发布时的质疑可以放下了,这确实是目前最强的通用模型。如果你在搭 Agent 循环,模型梯队该更新了。(513 likes | 32 RTs) 详情 →

Claude 登顶 App Store。 Anthropic 不再只是开发者和企业的宠儿 — Claude 冲上 App Store 第一名,加上日注册量破百万(见下),消费级 AI 的格局正在被改写。(6,435 likes | 502 RTs) 详情 →


💡 行业洞察

OpenAI 将在五角大楼机密网络部署模型。

Sam Altman 亲自宣布:OpenAI 与美国国防部达成协议,模型将进入机密网络。同时画了红线 — 不用于大规模监控和自主武器。这是 AI 军事化的分水岭时刻:最大的商业 AI 公司正式为军方提供能力,同时试图定义"负责任的军事 AI"边界在哪。不管你对此持什么立场,这件事会重塑整个行业的政策讨论。(9,285 likes | 1,139 RTs) 详情 →

OpenAI 和 Google 员工力挺 Anthropic 起诉五角大楼。 近 40 名来自 OpenAI 和 Google 的员工 — 包括 Jeff Dean — 联名提交法庭之友意见书,支持 Anthropic 对国防部供应链风险认定的诉讼。竞争对手的员工站在一起反对自家客户,这在科技史上极其罕见。AI 治理正在成为跨越公司边界的议题。详情 →

LeCun 的 AMI 融了 10.3 亿美元,赌 LLM 走不到终点。

Yann LeCunAMI 拿到超 10 亿美元融资,押注"世界模型" — 让 AI 从物理现实中学习,而不是只靠文本训练。这不是学术观点了,这是一个有十亿美元弹药的对立论点。如果你的技术栈完全押在纯语言模型的 scaling 上,至少该关注一下这个对冲方向。(226 likes | 39 RTs) 详情 →

Meta 收购 Moltbook — 一个给 AI Agent 用的社交网络。 没看错,Moltbook 是一个 Agent 发帖、互动的类 Reddit 平台。Meta 把团队并入 Meta 超级智能实验室。信号很清晰:Agent 之间的通信和社交交互,Meta 认为这是一个真实的产品方向,不是科幻小说。详情 →

Anthropic 日注册量突破 100 万。 对一个 AI 产品来说,百万级日注册是惊人的增速。Claude 的消费端和开发者平台同时加速 — Anthropic 从"低调的安全研究公司"到"全民产品"的转变,比大多数人预期的快得多。(3,838 likes | 224 RTs) 详情 →


🔧 开发者工具

Figma MCP Server 打通了设计到代码的双向闭环。

GitHub Copilot + Figma MCP Server 现在支持完整的往返循环:从 Figma 拉设计上下文到代码里,再把渲染好的 UI 推回 Figma 成为可编辑的 frame。设计师和开发者之间"你切图我还原"的低效循环,终于有了技术层面的解法。搭过 MCP 的开发者,今天就试试这个双向工作流。(85 likes | 10 RTs) 详情 →

Kali Linux 发布全本地 AI 渗透测试方案。 Kali Linux 官方指南:用 Ollama + MCP 让大模型直接调用安全工具,全程本地运行,不走云端 API。这是 MCP 在编程之外最实用的场景之一 — 安全从业者值得一试。(96 likes | 15 RTs) 详情 →

Claude Opus 4.6 直接在 Figma 里生成设计。 divRIOTS 发布 Figma 插件 — 输入 prompt,Claude Opus 4.6 直接在 Figma 画布上生成设计稿。之前是设计转代码,现在是 AI 直接出设计。设计工具链正在被 AI 重塑。(255 likes | 9 RTs) 详情 →

HuggingFace 密集发货:社区评测 + 数据集对话 + 数据选区。 HuggingFace Hub 正在从模型仓库进化成完整的数据开发环境 — 社区贡献 benchmark eval、跟数据集聊天的 Agent、类电子表格的 Data Studio 界面。数据工作者的日常工具又丰富了。(84 likes | 19 RTs) 详情 →


🔬 研究前沿

Qwen3.5-4B 在经典跑分上超过 GPT-4o。 Simon Willison 指出 — 一个 40 亿参数的模型,在部分经典 benchmark 上干翻了去年的旗舰 GPT-4o。这意味着什么?通过更好的数据筛选和知识蒸馏,"够用的 AI"的成本曲线正在以超出产品路线图预期的速度塌陷。边缘部署和本地推理的可行性又上了一个台阶。(567 likes | 32 RTs) 详情 →

LeCun:人类水平的 AI 必须掌握物理世界。 WIRED 深度报道 LeCun 的核心论点:语言模型是通往 AGI 的死胡同,真正的智能必须建立在对物理现实的理解之上。配合 AMI 的十亿美元融资,这不再是一个人的学术观点,而是一个有资金支撑的研究路线。(422 likes | 97 RTs) 详情 →

开放权重 ≠ 开放训练。 一篇犀利的分析:只发布模型权重而不公开训练代码、数据和方法论,不是真正的"开源"。对可复现性和 AI 研究的信任度都有影响。在"开源 AI"的定义越来越模糊的今天,这个区分值得所有做开源策略的团队认真想想。(10 likes | 1 RT) 详情 →


📝 技术实战

无限技能的 Agent 怎么搭? Brendan Falk 抛出了一个生产级 Agent 的核心架构问题:如何让单个 Agent 访问理论上无限多的工具,同时保持可靠性?评论区是一座金矿 — 有人用动态工具发现,有人用分层路由,有人用元工具模式。正在搭 Agent 系统的,必读这条线程。(87 likes | 4 RTs) 详情 →

ChatGPT vs Claude 的 Excel 千年压力测试。 Ethan Mollick 拿 100 多个 tab 的千年宏观经济数据同时测了 ChatGPTClaude 的 Excel 集成。两个都能用,但风格不同 — ChatGPT 倾向 app 内处理,Claude 偏好导出外部分析。拿你手头最难的表格去试试,看哪个更适合你的工作流。(1,253 likes | 82 RTs) 详情 →


🏗️ 值得一试

MacBook 上跑 SOTA 视频生成。 LTX 2.3 开源模型通过自定义 MLX 运行时在 MacBook 上实现了本地 SOTA 视频生成 — ComfyUI 适配器即将发布。本地视频生成从"能跑"到"能用"又近了一步。有 Apple Silicon 的赶紧关注发布。(55 likes | 4 RTs) 详情 →


🎓 模型小课堂

参数效率与知识蒸馏(Parameter Efficiency & Knowledge Distillation):Qwen3.5-4B 在经典跑分上打败 GPT-4o,背后的关键技术就是知识蒸馏 — 简单说,就是让一个大模型当"老师",把它学到的知识"教"给一个小模型。小模型不需要从零学习所有知识,而是站在巨人肩膀上,用更少的参数实现接近甚至超越的效果。配合更精细的数据筛选(不是数据越多越好,而是数据越精越好),小模型的能力天花板正在被不断抬高。这意味着什么?"够用的 AI"的成本曲线塌陷速度,比大多数产品路线图假设的都快。


⚡ 快讯

  • HuggingFace UV 脚本:一行命令在 COCO、YOLO 等目标检测数据集格式之间互转,CV 流水线的老大难问题终于有了简洁解法。(53 likes | 8 RTs) 链接
  • 数据集 → 嵌入 → 可视化一条龙:HuggingFace 单命令搞定 dataset → GPU embedding → 交互式可视化,快速探索数据集结构。(33 likes | 7 RTs) 链接
  • 用 Claude Code 从零造了一门编程语言:一个开发者的完整实战记录,展示了 Agent 编码目前能做到什么程度。(31 likes | 34 RTs) 链接
  • Grammarly 未经授权使用真人作者名字做 AI 人设:Expert Review 功能用了真实记者姓名当 AI 编辑头像,只提供 opt-out 选项。做 AI 功能的都该引以为戒。链接

🎯 今日精选

LeCun 的十亿美元豪赌 — 不只是融资,更是对 LLM 范式的公开叫板:AMI 拿到 10.3 亿美元,这不是一轮普通的融资 — 这是目前为止最响亮的信号,表明即便是 AI 领域最资深的内部人士也相信,纯语言模型的 scaling 范式存在天花板。LeCun 的论点很明确:真正的智能不可能只从文本中涌现,必须理解物理世界。当这个观点从学术博客变成了有十亿美元弹药支撑的研究路线,整个行业都需要重新审视自己的押注。这不意味着 LLM 没用 — Qwen3.5 和 GPT 5.4 今天还在证明语言模型的威力 — 但"下一个范式"的竞赛已经正式开始,而且有钱人在下注了。详情 →


下期见 ✌️