百度周末突袭发 Ernie-5.1 — 跑分声称碾压 DeepSeek V4 Pro

🧠 发布动态

百度周末突袭发 Ernie-5.1 — 跑分声称碾压 DeepSeek V4 Pro。

周六发模型，这个时间点选得很有意思。Ernie-5.1 放出的跑分数据显示多项指标超过 DeepSeek V4 Pro，中国 frontier 模型竞赛又多了一个认真的玩家。不过跑分归跑分，等独立评测出来再下结论 — 现在关注 API 开放时间。(547 likes | 37 RTs) 详情 →

Google 预览 Gemini 健康教练 — 直接读你的可穿戴数据。 I/O 大会还有 11 天，Google 先放出了一个整合运动手环、健身 App 和医疗记录的 Gemini 健康教练应用。健康场景是 Google 切入消费级 AI 的楔子 — 数据优势在这里最明显。(424 likes | 26 RTs) 详情 →

xAI 发布 Grok Voice Think Fast 1.0 — 带预制通话模板的语音 Agent。 医疗诊所、餐厅、客服热线，预制模板直接上。能处理噪音、口音和打断 — 这是对 OpenAI Realtime-2 的正面挑战。语音 Agent 赛道开始拥挤了。(35 likes | 8 RTs) 详情 →

HiDream 把思维链推理带进图像生成。 HiDream-O1-Image 在生成图片前先"想一想" — 把 o1 式的 chain-of-thought 范式应用到图像生成上。复杂提示词下的构图和语义准确性应该会有明显提升，HuggingFace 上已经在趋势榜了。(100 likes | 21 downloads) 详情 →

🔬 研究前沿

Anthropic 新研究：教 Claude 理解规则背后的"为什么"。

不是让模型死记硬背行为准则，而是训练它理解规则存在的逻辑。这项研究直接回应了此前发现的 Claude 在特定条件下可能出现不对齐推理的问题 — 从"记住规则"到"理解规则"，对齐不是最后焊上去的护栏，而是需要像其他能力一样训练的推理技能。(4,519 likes | 291 RTs) 详情 →

一个人用 AI 编程工具复现了 Schmidhuber 35 年的论文。 从 1990 年到 2025 年，包括完整的 VAE + RNN world model 实现。这既是 AI 辅助研究的有力验证，也是一份了不起的可复现 ML 历史档案 — 证明 AI 编程工具不只是补全代码，能做真正的研究级实现。(585 likes | 86 RTs) 详情 →

连续扩散模型做语言建模 — LLM 的非自回归路径。 新论文把连续扩散过程应用到语言模型上，不再逐 token 自回归生成。如果能 scale，这可能是 LLM 架构的一条根本不同的路径 — 目前还早期，但值得持续跟踪。(272 likes | 50 RTs) 详情 →

💡 行业洞察

Altman 众筹下一代模型优先级 — 6K 赞还在涨。

GPT-5.5 发布才两周，Sam Altman 就在 X 上问"你们最想让下一个模型改进什么？"评论区涌入数百条详细需求。这不是 PR — 这是实时的市场信号采集。去看高赞回复，你能读出开发者真正的痛点在哪里。(6,346 likes | 223 RTs) 详情 →

Anthropic 年增长 10 倍，竞争对手在裁员 10%+。 Latent Space 指出一个鲜明对比：Anthropic 以 10 倍年增速扩张，而大部分竞争者在砍人。赢家通吃的格局正在成型 — frontier 模型市场可能不会是五六家并存的格局，而是两三家拉开差距。详情 →

Meta 的 AI 转型正在让自己人痛苦。 纽约时报调查显示，Meta 激进的 AI 转向导致传统产品团队被边缘化，内部不满情绪蔓延。大公司 AI 转型的人力成本 — 技术战略对了不等于组织转型就能顺利。(226 likes | 206 RTs) 详情 →

🏗️ 值得一试

Redis 之父造了个专用引擎，在 Mac 上跑前沿模型。

Antirez 发布 ds4 — 专门为在 128GB Mac 上本地运行 DeepSeek v4 Flash 而写的推理引擎。2-bit 量化（weight quantization），100 万 token 上下文，不需要云 API。当 Redis 之父觉得现有工具不够好时，他就自己写一个 — 这次的结果是：前沿级模型本地推理的门槛被大幅拉低。(2,048 likes | 236 RTs) 详情 →

实时语音翻译 CLI — Zoom 和 Meet 通话中日译英。 开发者用 GPT-Realtime-2 搭建了一个拦截麦克风、实时翻译的命令行工具。不是演示级 demo — 是能在真实会议中跑的东西。自定义音频路由 + 语音模型 = 语音栈的实际应用远不止聊天机器人。Fork 一下改成你需要的语言对。(1,099 likes | 109 RTs) 详情 →

🔧 开发者工具

HuggingFace 开源了一个自动化 ML 研究实习生。 自动读论文、提取关键发现、综合洞察。文献综述的时间成本可能从小时级降到分钟级 — 做研究的去试试你的阅读积压。(141 likes | 30 RTs) 详情 →

Anthropic 推出 Claude Certified Architect 认证。 覆盖 Agent 工作流、MCP 工具集成、上下文/记忆管理、结构化输出和生产可靠性。AI 工程作为一门学科正在获得自己的专业认证标准 — 信号很明确：这不再是"会调 API 就行"的阶段了。(271 likes | 95 RTs) 详情 →

GitHub 将于 5 月 15 日下架 Copilot 中的 Grok Code Fast 1 — 5 天内必须迁移。 如果你在用，迁移到 GPT-5 mini 或 Claude Haiku 4.5。不是 sunset 警告，是 5 天后直接下线。(30 likes | 1 RTs) 详情 →

📝 技术实战

为什么 WebRTC 不适合 OpenAI 的 Realtime API。 深度技术分析：WebRTC 为点对点通话设计，硬套在服务端语音 Agent 上问题一堆 — 连接管理复杂、缺乏服务端控制、NAT 穿透开销大。正在用 Realtime-2 搭语音 Agent 的，先读这篇再动手。(466 likes | 140 RTs) 详情 →

跑了 16 天不断的多 Agent 架构 — Factory AI 的生产实践。 关键洞察：在实现之前先写好验证契约（validation contracts），这是让长时间运行的 Agent 系统不跑偏的核心。编排器 + 工作器 + 验证器的三层架构，16 天持续运行零人工干预。(261 likes | 15 RTs) 详情 →

你的 Claude Code token 有 73% 在你不知道的地方被消耗了。 14% 被 CLAUDE.md 在你写任何代码之前就吃掉了，13% 在重读对话历史。实操建议：审计你的 CLAUDE.md 大小和上下文使用 — 精简配置文件就是在省钱。(149 likes | 12 RTs) 详情 →

🎓 模型小课堂

权重量化（Weight Quantization）：模型的参数通常用 16 位浮点数存储，一个 600 亿参数的模型就要占 120GB 显存。量化就是把这些数字压缩到更少的位数 — 8 位、4 位，甚至 Antirez 的 ds4 用的 2 位。代价是精度会有微小损失，换来的是 8-16 倍的内存节省。这就是"前沿模型跑在你笔记本上"从幻想变成现实的核心技术 — 对于想省掉云 API 费用的开发者来说，这可能是最值得了解的优化手段。

⚡ 快讯

Conference Tamagotchi + Claude：开发者给 Anthropic 在 Code with Claude 大会上发的电子宠物硬件加上了记忆和 Claude 集成。(2,112 likes | 123 RTs) 链接
Claude Code v2.1.137-138：修复 Windows VSCode 扩展无法激活的问题。链接
Gemini 3.1 Flash Lite：从预览转为正式可用（GA），定价不变。(289 likes) 链接
Mollick：AI 对职业的冲击将沿着行会线走，而不是能力线 — 有律师协会保护的职业和没有的，命运完全不同。(347 likes) 链接
AI 聊天机器人就是新版轮播图：一个自由职业者的一线观察 — 客户从"加个轮播图"变成了"加个 AI 聊天机器人"。(164 likes | 69 RTs) 链接

🎯 今日精选

教 Claude 理解"为什么" — 对齐不是护栏，是推理能力：Anthropic 这篇研究揭示了一个关键认知转变 — 让模型死记硬背行为规则和让模型理解规则存在的原因，是完全不同的两件事。前者脆弱且容易在边缘场景失效，后者才是真正的对齐。这就像教孩子"不要碰火"和让孩子理解"火会烫伤你" — 后者在遇到新情况时依然有效。对企业来说，谁先把对齐做成可训练的推理能力而不是事后焊上去的过滤器，谁就能造出企业真正敢信任的模型。Anthropic 在这个方向上押得最重，而这篇论文说明他们可能真的在取得进展。(4,519 likes | 291 RTs) 详情 →

下期见 ✌️