NewsletterBlogGlossary
LAUNCHINSIGHTTOOLTECHNIQUERESEARCHBUILD

22 条资讯

Mistral Small 4:128 专家、256K 上下文、可配置推理

🧠 发布动态

Mistral Small 4:128 专家、256K 上下文、可配置推理。

你的开源模型选项又多了一个重量级选手。Mistral Small 4 总参数 119B,128 个专家,256K 上下文窗口,支持可配置推理 — 这意味着你可以在速度和深度思考之间自由切换。对标 GPT-5.4 mini 的 Agent 工作流场景,这是目前最有竞争力的开源方案。权重已开放下载,建议直接跑个 benchmark 对比你现有的方案。(2,576 likes | 324 RTs) 详情 →

Google AI Studio 变身全栈 Vibe Coding 平台。

Google AI Studio 现在能直接用 prompt 构建全栈多人应用了 — 内置 Antigravity Agent + Firebase 后端,实时游戏和工具从提示词到上线一步到位。Vibe coding 从"写个前端页面"升级到了"搭个完整产品"。(2,116 likes | 226 RTs) 详情 →

Google Stitch 从实验室毕业,变成 AI 设计画布。 支持多模态输入(文本、图片、代码),上下文感知设计 Agent,直接输出生产级前端代码。设计师出图到开发者拿到可用代码之间的鸿沟,Google 在认真填。(1,882 likes | 208 RTs) 详情 →

Chandra OCR 2 拿下开源 OCR 王座。 olmOCR bench 跑分 85.9%,超越此前所有开源方案。如果你的文档解析管道还在用付费 API,现在有了更强的开源替代。(269 likes | 30 RTs) 详情 →

MiniMax 2.7:GLM-5 水平,三分之一的价格。 中国实验室继续在性价比上卷出新高度 — 前沿性能不再需要前沿价格。对成本敏感的生产环境,这是个值得认真评估的选项。 详情 →


🔧 开发者工具

Dispatch 打通手机到 Claude Code 的桥梁。

用手机跟 AI 说"帮我搭个项目",回到电脑上就有一个跑起来的工程在等你。Dispatch 现在可以直接启动 Claude Code 会话,把"随时随地指挥 AI 干活"变成了现实。(2,238 likes | 118 RTs) 详情 →

DESIGN.md:一个可移植的、Agent 可读的设计系统标准。 Stitch 配套发布了 MCP server,可以连接 Claude Code、Cursor、Gemini CLI — 你的 coding agent 在写代码时能直接读取你的设计规范。真正的互操作故事不是某个工具,而是 DESIGN.md 这个标准本身。(1,743 likes | 107 RTs) 详情 →

ElevenLabs MCP:11K 用户在 Claude 里生成音频。 语音、音效、音乐,全部通过 MCP 在 Claude 会话内直接生成。MCP 的采用不是纸上谈兵了,媒体生成正在成为 Agent 的一等公民能力。(297 likes | 29 RTs) 详情 →


📝 技术实战

Qwen 3.5 397B 在 Mac 上跑到 5.7 tok/s,只用 5.5 GB 活跃内存。

一个 209GB 的 MoE 模型,在消费级 M3 Mac 上流畅运行 — 秘诀是量化后从 SSD 以 17GB/s 流式加载权重,MoE 的稀疏激活意味着你只需要把当前活跃的专家子集放进内存。"能本地跑"的定义,今天被重新改写了。(1,578 likes | 150 RTs) 详情 →

Intercom 的 Claude Code 内部体系:13 个插件、100+ 技能、Hooks 守护。 这是目前最详细的企业级 coding agent 定制案例 — 用 Hooks 做确定性护栏,插件系统实现跨团队扩展。想在公司内部推广 AI 编码工具的,这就是你的参考架构。(1,813 likes | 111 RTs) 详情 →

本地 Coding Agent 已经实用了。 最新的小模型已经足够强,可以在本地跑完整的编码 Agent 工作流。零成本、隐私友好,标准开发任务不再需要云端 API。(1,149 likes | 128 RTs) 详情 →


🔬 研究前沿

LeCun 提出认知科学启发的 AI 架构。 LeCun、Dupoux 和 Malik 联合发表新论文,探索超越纯粹 scaling 的路径 — 用生物学习机制指导 AI 架构设计。"把模型做大就行了"的范式,可能不是唯一的答案。(520 likes | 98 RTs) 详情 →

NVIDIA SPEED-Bench:投机解码终于有了统一跑分标准。 投机解码(Speculative Decoding)是让大语言模型(LLM)推理加速 2-3 倍的关键技术 — 用小模型起草、大模型验证。之前各家方法没法公平比较,现在有标准了。 详情 →

神经元胞自动机作为 LLM 预预训练步骤。 一种新颖的方法:用神经元胞自动机(Neural Cellular Automata)在正式预训练之前做一轮"热身"。如果验证有效,可能降低 LLM 训练早期阶段最烧钱的那部分算力需求。(82 likes | 16 RTs) 详情 →


💡 行业洞察

Astral(ruff、uv)加入 OpenAI。

Python 生态里跑得最快的两个工具 — ruff(linter)和 uv(包管理器)— 的母公司 Astral 被 OpenAI 收购了。这不是一笔普通的人才收购:当你的工具链供应商同时也是你的模型供应商,锁定效应比任何 API 合同都深。OpenAI 在下一盘更大的棋 — 不只是卖模型,而是拥有开发者的整个工作流。(804 likes | 496 RTs) 详情 →

AI 垃圾 PR 正在让大型开源仓库不堪重负。 HuggingFace CEO 报告,每隔几分钟就有一个 AI 生成的低质量 PR 涌入主流开源项目 — AI 代码生成零门槛的代价,全落在了维护者头上。(1,170 likes | 98 RTs) 详情 →

维护者开始在 CONTRIBUTING.md 里注入 Prompt Injection。 没看错 — 开源维护者们正在用 AI 对抗 AI,在贡献指南里埋入 prompt 来检测和拦截 AI 生成的 PR。这招很有创意,但也说明问题已经严重到了什么程度。(43 likes | 16 RTs) 详情 →


🏗️ 值得一试

NVIDIA Nemotron 3 Nano 4B:为手机和边缘设备打造的混合模型。 40 亿参数,专为端侧部署优化。在手机上跑推理、不依赖云端 — 如果你在做 local-first 的 AI 功能,这是目前最合适的模型之一。 详情 →


🎓 模型小课堂

混合专家模型(Mixture of Experts, MoE)— 总参数 vs 活跃参数:看到"Mistral Small 4 有 119B 参数",你可能会想这得多大的显卡才跑得动。但 MoE 的核心在于:模型有 128 个"专家",每次推理只激活其中一小部分。所以"模型大小"不再等于"需要的内存"。这也是为什么 Qwen 3.5 397B 能在 Mac 上跑 — 它总参数 397B,但活跃参数只是一个零头。下次看到 MoE 模型的跑分宣传,记得问一句:测试时激活了多少参数?这个数字比总参数重要得多。


⚡ 快讯

  • Code with Claude 开发者大会:三城同办 — 旧金山、伦敦、东京,Workshop + Demo + Office Hours。(7,556 likes | 851 RTs) 链接
  • Gemini 3.0 遇挫:大部分用户还停留在 2.5,竞争对手却在加速出货。(824 likes | 45 RTs) 链接
  • Karpathy Autoresearch Agent 扩展到 GPU 集群:单机 Agent 放到集群上会怎样?成功和失败模式都值得看。(18 likes | 3 RTs) 链接
  • AlphaFold 数据库:AI 加速科学研究的标杆案例,已成为全球生物学研究的基础设施。(1,724 likes | 275 RTs) 链接

🎯 今日精选

OpenAI 收购 Astral 不是为了 ruff 和 uv — 而是为了占领开发者的工作台面。 表面看,这是一笔工具链收购:ruff 是最快的 Python linter,uv 是最快的包管理器,两个工具加起来已经渗透了大量 Python 开发者的日常工作流。但往深了想,当你的工具链供应商同时也是你的模型供应商,锁定效应比任何 API 合同都要深 — 你用 uv 管理依赖、用 ruff 检查代码、用 Codex 写代码,整个开发循环都在 OpenAI 的生态里完成。这和 Google 当年收购 Android 的逻辑一样:不是为了卖手机操作系统,而是为了拥有移动端的入口。Python 是 AI 时代的 lingua franca,控制了它的工具链,就控制了开发者触达模型的路径。 详情 →


下期见 ✌️