Mistral Small 4：128 专家、256K 上下文、可配置推理

🧠 发布动态

Mistral Small 4：128 专家、256K 上下文、可配置推理。

你的开源模型选项又多了一个重量级选手。Mistral Small 4 总参数 119B，128 个专家，256K 上下文窗口，支持可配置推理 — 这意味着你可以在速度和深度思考之间自由切换。对标 GPT-5.4 mini 的 Agent 工作流场景，这是目前最有竞争力的开源方案。权重已开放下载，建议直接跑个 benchmark 对比你现有的方案。(2,576 likes | 324 RTs) 详情 →

Google AI Studio 变身全栈 Vibe Coding 平台。

Google AI Studio 现在能直接用 prompt 构建全栈多人应用了 — 内置 Antigravity Agent + Firebase 后端，实时游戏和工具从提示词到上线一步到位。Vibe coding 从"写个前端页面"升级到了"搭个完整产品"。(2,116 likes | 226 RTs) 详情 →

Google Stitch 从实验室毕业，变成 AI 设计画布。 支持多模态输入（文本、图片、代码），上下文感知设计 Agent，直接输出生产级前端代码。设计师出图到开发者拿到可用代码之间的鸿沟，Google 在认真填。(1,882 likes | 208 RTs) 详情 →

Chandra OCR 2 拿下开源 OCR 王座。 olmOCR bench 跑分 85.9%，超越此前所有开源方案。如果你的文档解析管道还在用付费 API，现在有了更强的开源替代。(269 likes | 30 RTs) 详情 →

MiniMax 2.7：GLM-5 水平，三分之一的价格。 中国实验室继续在性价比上卷出新高度 — 前沿性能不再需要前沿价格。对成本敏感的生产环境，这是个值得认真评估的选项。详情 →

🔧 开发者工具

Dispatch 打通手机到 Claude Code 的桥梁。

用手机跟 AI 说"帮我搭个项目"，回到电脑上就有一个跑起来的工程在等你。Dispatch 现在可以直接启动 Claude Code 会话，把"随时随地指挥 AI 干活"变成了现实。(2,238 likes | 118 RTs) 详情 →

DESIGN.md：一个可移植的、Agent 可读的设计系统标准。 Stitch 配套发布了 MCP server，可以连接 Claude Code、Cursor、Gemini CLI — 你的 coding agent 在写代码时能直接读取你的设计规范。真正的互操作故事不是某个工具，而是 DESIGN.md 这个标准本身。(1,743 likes | 107 RTs) 详情 →

ElevenLabs MCP：11K 用户在 Claude 里生成音频。 语音、音效、音乐，全部通过 MCP 在 Claude 会话内直接生成。MCP 的采用不是纸上谈兵了，媒体生成正在成为 Agent 的一等公民能力。(297 likes | 29 RTs) 详情 →

📝 技术实战

Qwen 3.5 397B 在 Mac 上跑到 5.7 tok/s，只用 5.5 GB 活跃内存。

一个 209GB 的 MoE 模型，在消费级 M3 Mac 上流畅运行 — 秘诀是量化后从 SSD 以 17GB/s 流式加载权重，MoE 的稀疏激活意味着你只需要把当前活跃的专家子集放进内存。"能本地跑"的定义，今天被重新改写了。(1,578 likes | 150 RTs) 详情 →

Intercom 的 Claude Code 内部体系：13 个插件、100+ 技能、Hooks 守护。 这是目前最详细的企业级 coding agent 定制案例 — 用 Hooks 做确定性护栏，插件系统实现跨团队扩展。想在公司内部推广 AI 编码工具的，这就是你的参考架构。(1,813 likes | 111 RTs) 详情 →

本地 Coding Agent 已经实用了。 最新的小模型已经足够强，可以在本地跑完整的编码 Agent 工作流。零成本、隐私友好，标准开发任务不再需要云端 API。(1,149 likes | 128 RTs) 详情 →

🔬 研究前沿

LeCun 提出认知科学启发的 AI 架构。 LeCun、Dupoux 和 Malik 联合发表新论文，探索超越纯粹 scaling 的路径 — 用生物学习机制指导 AI 架构设计。"把模型做大就行了"的范式，可能不是唯一的答案。(520 likes | 98 RTs) 详情 →

NVIDIA SPEED-Bench：投机解码终于有了统一跑分标准。 投机解码（Speculative Decoding）是让大语言模型（LLM）推理加速 2-3 倍的关键技术 — 用小模型起草、大模型验证。之前各家方法没法公平比较，现在有标准了。详情 →

神经元胞自动机作为 LLM 预预训练步骤。 一种新颖的方法：用神经元胞自动机（Neural Cellular Automata）在正式预训练之前做一轮"热身"。如果验证有效，可能降低 LLM 训练早期阶段最烧钱的那部分算力需求。(82 likes | 16 RTs) 详情 →

💡 行业洞察

Astral（ruff、uv）加入 OpenAI。

Python 生态里跑得最快的两个工具 — ruff（linter）和 uv（包管理器）— 的母公司 Astral 被 OpenAI 收购了。这不是一笔普通的人才收购：当你的工具链供应商同时也是你的模型供应商，锁定效应比任何 API 合同都深。OpenAI 在下一盘更大的棋 — 不只是卖模型，而是拥有开发者的整个工作流。(804 likes | 496 RTs) 详情 →

AI 垃圾 PR 正在让大型开源仓库不堪重负。 HuggingFace CEO 报告，每隔几分钟就有一个 AI 生成的低质量 PR 涌入主流开源项目 — AI 代码生成零门槛的代价，全落在了维护者头上。(1,170 likes | 98 RTs) 详情 →

维护者开始在 CONTRIBUTING.md 里注入 Prompt Injection。 没看错 — 开源维护者们正在用 AI 对抗 AI，在贡献指南里埋入 prompt 来检测和拦截 AI 生成的 PR。这招很有创意，但也说明问题已经严重到了什么程度。(43 likes | 16 RTs) 详情 →

🏗️ 值得一试

NVIDIA Nemotron 3 Nano 4B：为手机和边缘设备打造的混合模型。 40 亿参数，专为端侧部署优化。在手机上跑推理、不依赖云端 — 如果你在做 local-first 的 AI 功能，这是目前最合适的模型之一。详情 →

🎓 模型小课堂

混合专家模型（Mixture of Experts, MoE）— 总参数 vs 活跃参数：看到"Mistral Small 4 有 119B 参数"，你可能会想这得多大的显卡才跑得动。但 MoE 的核心在于：模型有 128 个"专家"，每次推理只激活其中一小部分。所以"模型大小"不再等于"需要的内存"。这也是为什么 Qwen 3.5 397B 能在 Mac 上跑 — 它总参数 397B，但活跃参数只是一个零头。下次看到 MoE 模型的跑分宣传，记得问一句：测试时激活了多少参数？这个数字比总参数重要得多。

⚡ 快讯

Code with Claude 开发者大会：三城同办 — 旧金山、伦敦、东京，Workshop + Demo + Office Hours。(7,556 likes | 851 RTs) 链接
Gemini 3.0 遇挫：大部分用户还停留在 2.5，竞争对手却在加速出货。(824 likes | 45 RTs) 链接
Karpathy Autoresearch Agent 扩展到 GPU 集群：单机 Agent 放到集群上会怎样？成功和失败模式都值得看。(18 likes | 3 RTs) 链接
AlphaFold 数据库：AI 加速科学研究的标杆案例，已成为全球生物学研究的基础设施。(1,724 likes | 275 RTs) 链接

🎯 今日精选

OpenAI 收购 Astral 不是为了 ruff 和 uv — 而是为了占领开发者的工作台面。 表面看，这是一笔工具链收购：ruff 是最快的 Python linter，uv 是最快的包管理器，两个工具加起来已经渗透了大量 Python 开发者的日常工作流。但往深了想，当你的工具链供应商同时也是你的模型供应商，锁定效应比任何 API 合同都要深 — 你用 uv 管理依赖、用 ruff 检查代码、用 Codex 写代码，整个开发循环都在 OpenAI 的生态里完成。这和 Google 当年收购 Android 的逻辑一样：不是为了卖手机操作系统，而是为了拥有移动端的入口。Python 是 AI 时代的 lingua franca，控制了它的工具链，就控制了开发者触达模型的路径。详情 →

下期见 ✌️