Gemini 3.1 Flash Live 上线，实时语音 AI 更快更稳了

🧠 发布动态

Gemini 3.1 Flash Live 上线，实时语音 AI 更快更稳了。

你的语音 AI 应用响应速度刚提了一档。Gemini 3.1 Flash Live 降低了音频延迟，函数调用更智能 — 意味着语音驱动的 Agent 终于能在对话中流畅地调工具了。已在 Google 全线产品上线，去 Google AI Studio 直接试。(1,343 likes | 144 RTs) 详情 →

Voxtral TTS 来了：Mistral 开源 frontier 级文本转语音。 4B 参数，表现力强，速度快，关键是 — 权重完全开放，下载就能跑。Mistral 正式杀入 TTS 赛道，给了所有不想被 API 绑定的团队一个真正可用的选择。(2,694 likes | 108 downloads) 详情 →

Cohere Transcribe 开源语音识别登顶。 同一天，Cohere 放出号称 SOTA 的开源 ASR 模型。Voxtral 管说，Transcribe 管听 — 开源社区一天之内把语音 AI 全栈补齐了。拿你自己的数据跟 Whisper 对比一下。(1,671 likes | 13 downloads) 详情 →

Google 翻译实时耳机翻译登陆 iOS。 戴上耳机，对方说外语你听中文 — 不用打开 App，不用看屏幕。AI 翻译正在变成环境基础设施，而不是一个你需要主动打开的工具。iOS 用户现在就能更新体验。详情 →

🔧 开发者工具

Claude Code 上云了：CI 挂了它自己修。

你推完代码去喝咖啡，回来发现 CI 失败已经被修好了。Claude Code 的 Web 和移动端现在可以自动跟踪 PR、检测 CI 失败并提交修复 — 不需要你开着终端。异步 Agent 编码正式进入云原生时代。(3,769 likes | 283 RTs) 详情 →

延伸阅读：我们刚发布了一篇深度分析 Claude Code 不只是编码工具，讲的正是这种 Agent 化工作流。

OpenAI Codex 本周全线 2 倍速率限制。 所有 ChatGPT 订阅用户的 Codex CLI 速率限制翻倍，限时一周。如果你之前被限流卡过，现在是窗口期。npm i -g @openai/codex 然后开干。(991 likes | 33 RTs) 详情 →

Cursor 团队揭秘：AI 编码 Agent 的快速正则搜索怎么做。 "找到正确的代码"是每个编码 Agent 的瓶颈。Cursor 工程团队分享了他们的文本索引方案 — 对所有在做代码感知工具的人都有参考价值。(24 likes | 5 RTs) 详情 →

延伸阅读：想了解 Cursor 和 Claude Code 的差异？看看我们的 Claude Code vs Cursor 对比。

🔬 研究前沿

Meta TRIBE v2：给你的大脑建一个数字孪生。

Meta AI 用 700+ 人、500+ 小时的 fMRI 数据训练了 TRIBE v2，能零样本预测从未见过的受试者对视觉和听觉刺激的神经反应。这不只是神经科学的突破 — 它证明了基础模型的 scaling law 同样适用于生物数据。谁先攻克大脑到模型的对齐，谁就掌握了语音之后的下一个输入模态。(6,396 likes | 842 RTs) 详情 →

Uni-1：一个模型同时搞定理解和生成。 约 15 人的团队做出了 Uni-1 — 单一架构统一理解与生成。趋势越来越明显：专用模型在减少，通用模型在增多。(530 likes | 64 RTs) 详情 →

DeepMind 研究 AI 如何被武器化进行情感操纵。 Google DeepMind 发布研究报告，系统梳理了 AI 在金融、健康等领域被滥用于情感操纵的风险，并提出了新的安全框架。语音 AI 越来越有说服力的今天，这篇是必读。(200 likes | 31 RTs) 详情 →

📝 技术实战

从零到生产 RAG：一份诚实的事后复盘。 不是教程，是踩坑记录 — 什么有效、什么没用、以及那些文档里不会告诉你的非显性失败模式。这种实战经验能帮你省掉几周的调试时间。(274 likes | 84 RTs) 详情 →

延伸阅读：对 RAG 感兴趣？我们的 RAG 专题页有更多深度内容。

用 Gemini Flash Live 语音编程：说着话就把 App 搭了。 Google 在 AI Studio 中演示了语音驱动的应用构建 — 你大声说出想法，模型实时跟上你的脑暴节奏。低延迟语音 AI 给开发者工作流打开了新的可能性。(289 likes | 48 RTs) 详情 →

💡 行业洞察

Karpathy：AI 能写代码了，但基础设施迷宫还是无解。

Karpathy 回顾一年前做 menugen 的经历，说出了每个 vibe coder 都撞过的墙：服务部署、支付接入、身份验证、数据库、域名 — AI 写代码飞快，但这些工程管道还是得自己爬。他期待能搞定全栈的 Agent。这个痛点共鸣了整个开发者社区。(2,834 likes | 212 RTs) 详情 →

LiteLLM 供应链攻击实录：一个开发者的逐分钟响应日志。 从发现异常到确认攻击到隔离风险，完整的事件响应时间线。当你的 AI 依赖被污染时该怎么做？这是一份实战教科书。(269 likes | 120 RTs) 详情 →

Anthropic 高峰时段限流 Claude 会话。 工作日太平洋时间 5am-11am，免费/Pro/Max 用户的 5 小时会话限制会收紧。周限额不变。重度用户注意错峰使用。(3,553 likes | 236 RTs) 详情 →

联邦法院批准 Anthropic 对美国国防部的初步禁令。 这是一个重要的法律先例 — AI 公司可以通过司法手段推回政府强制要求。细节对整个行业都有影响，值得仔细读判决原文。(28 likes | 2 RTs) 详情 →

🏗️ 值得一试

AI 辅助重写 JSONata，一天搞定，年省 50 万美元。 Reco.ai 用 AI 在一天内重写了 JSONata 依赖，直接砍掉了每年 $500K 的成本。这是 AI 辅助技术债务清理的最佳案例之一 — 找找你自己项目里有没有类似的重写候选目标。(55 likes | 49 RTs) 详情 →

🎓 模型小课堂

零样本泛化（Zero-Shot Generalization）：训练一个模型识别猫和狗，然后给它看一张从没见过的狐狸照片，它也能描述出"这是一种四脚动物" — 这就是零样本泛化。模型不需要针对新数据微调，就能把学到的知识迁移到全新的输入上。今天的新闻里处处是这个概念：TRIBE v2 能预测从未扫描过的受试者的大脑反应，开源语音模型能识别从未听过的口音和声音。理解这个能力为什么重要：它决定了一个模型是只能在实验室里跑分，还是能在真实世界里干活。

⚡ 快讯

Google Search Live 全球扩展：AI 实时对话搜索覆盖所有 AI Mode 可用语言和地区。链接
$7/月 VPS 上的 AI Agent：用 IRC 做通信层，极简主义 Agent 部署方案。链接
Mollick：如果你的 AI 项目没失败过，说明你不够大胆。 (405 likes | 45 RTs) 链接
Latent Space 深度复盘 Anthropic 史上最大发布周。 链接
AI 辅助开发的新内循环正在形成。 (85 likes | 9 RTs) 链接
Google James Manyika 与 LL COOL J 对谈 AI 与创造力。 链接

🎯 今日精选

Meta TRIBE v2 的零样本神经预测不只是神经科学的炫技 — 它揭示了一个更大的规律：基础模型的 scaling law 不只适用于文本，同样适用于生物数据。用 700 多人的 fMRI 数据训练出的模型，能零样本预测从未见过的大脑对视觉和听觉的反应 — 这跟今天开源语音模型能泛化到未见过的口音是同一个底层原理。谁先攻克大脑信号到模型的对齐，谁就拿到了语音之后的下一个输入模态。今天同时爆发的开源 TTS 和 ASR 证明了语音这条路已经被走通，下一个前沿就是更直接的神经接口。这不是科幻，TRIBE v2 已经在做了。详情 →

下期见 ✌️