NewsletterBlogLearnCompareTopicsGlossary
English
LAUNCHRESEARCHTOOLINSIGHTTECHNIQUEBUILD

23 条资讯

Gemini 3.1 Flash Live 上线,实时语音 AI 更快更稳了

🧠 发布动态

Gemini 3.1 Flash Live 上线,实时语音 AI 更快更稳了。

你的语音 AI 应用响应速度刚提了一档。Gemini 3.1 Flash Live 降低了音频延迟,函数调用更智能 — 意味着语音驱动的 Agent 终于能在对话中流畅地调工具了。已在 Google 全线产品上线,去 Google AI Studio 直接试。(1,343 likes | 144 RTs) 详情 →

Voxtral TTS 来了:Mistral 开源 frontier 级文本转语音。 4B 参数,表现力强,速度快,关键是 — 权重完全开放,下载就能跑。Mistral 正式杀入 TTS 赛道,给了所有不想被 API 绑定的团队一个真正可用的选择。(2,694 likes | 108 downloads) 详情 →

Cohere Transcribe 开源语音识别登顶。 同一天,Cohere 放出号称 SOTA 的开源 ASR 模型。Voxtral 管说,Transcribe 管听 — 开源社区一天之内把语音 AI 全栈补齐了。拿你自己的数据跟 Whisper 对比一下。(1,671 likes | 13 downloads) 详情 →

Google 翻译实时耳机翻译登陆 iOS。 戴上耳机,对方说外语你听中文 — 不用打开 App,不用看屏幕。AI 翻译正在变成环境基础设施,而不是一个你需要主动打开的工具。iOS 用户现在就能更新体验。 详情 →


🔧 开发者工具

Claude Code 上云了:CI 挂了它自己修。

你推完代码去喝咖啡,回来发现 CI 失败已经被修好了。Claude Code 的 Web 和移动端现在可以自动跟踪 PR、检测 CI 失败并提交修复 — 不需要你开着终端。异步 Agent 编码正式进入云原生时代。(3,769 likes | 283 RTs) 详情 →

延伸阅读:我们刚发布了一篇深度分析 Claude Code 不只是编码工具,讲的正是这种 Agent 化工作流。

OpenAI Codex 本周全线 2 倍速率限制。 所有 ChatGPT 订阅用户的 Codex CLI 速率限制翻倍,限时一周。如果你之前被限流卡过,现在是窗口期。npm i -g @openai/codex 然后开干。(991 likes | 33 RTs) 详情 →

Cursor 团队揭秘:AI 编码 Agent 的快速正则搜索怎么做。 "找到正确的代码"是每个编码 Agent 的瓶颈。Cursor 工程团队分享了他们的文本索引方案 — 对所有在做代码感知工具的人都有参考价值。(24 likes | 5 RTs) 详情 →

延伸阅读:想了解 Cursor 和 Claude Code 的差异?看看我们的 Claude Code vs Cursor 对比


🔬 研究前沿

Meta TRIBE v2:给你的大脑建一个数字孪生。

Meta AI 用 700+ 人、500+ 小时的 fMRI 数据训练了 TRIBE v2,能零样本预测从未见过的受试者对视觉和听觉刺激的神经反应。这不只是神经科学的突破 — 它证明了基础模型的 scaling law 同样适用于生物数据。谁先攻克大脑到模型的对齐,谁就掌握了语音之后的下一个输入模态。(6,396 likes | 842 RTs) 详情 →

Uni-1:一个模型同时搞定理解和生成。 约 15 人的团队做出了 Uni-1 — 单一架构统一理解与生成。趋势越来越明显:专用模型在减少,通用模型在增多。(530 likes | 64 RTs) 详情 →

DeepMind 研究 AI 如何被武器化进行情感操纵。 Google DeepMind 发布研究报告,系统梳理了 AI 在金融、健康等领域被滥用于情感操纵的风险,并提出了新的安全框架。语音 AI 越来越有说服力的今天,这篇是必读。(200 likes | 31 RTs) 详情 →


📝 技术实战

从零到生产 RAG:一份诚实的事后复盘。 不是教程,是踩坑记录 — 什么有效、什么没用、以及那些文档里不会告诉你的非显性失败模式。这种实战经验能帮你省掉几周的调试时间。(274 likes | 84 RTs) 详情 →

延伸阅读:对 RAG 感兴趣?我们的 RAG 专题页 有更多深度内容。

用 Gemini Flash Live 语音编程:说着话就把 App 搭了。 Google 在 AI Studio 中演示了语音驱动的应用构建 — 你大声说出想法,模型实时跟上你的脑暴节奏。低延迟语音 AI 给开发者工作流打开了新的可能性。(289 likes | 48 RTs) 详情 →


💡 行业洞察

Karpathy:AI 能写代码了,但基础设施迷宫还是无解。

Karpathy 回顾一年前做 menugen 的经历,说出了每个 vibe coder 都撞过的墙:服务部署、支付接入、身份验证、数据库、域名 — AI 写代码飞快,但这些工程管道还是得自己爬。他期待能搞定全栈的 Agent。这个痛点共鸣了整个开发者社区。(2,834 likes | 212 RTs) 详情 →

LiteLLM 供应链攻击实录:一个开发者的逐分钟响应日志。 从发现异常到确认攻击到隔离风险,完整的事件响应时间线。当你的 AI 依赖被污染时该怎么做?这是一份实战教科书。(269 likes | 120 RTs) 详情 →

Anthropic 高峰时段限流 Claude 会话。 工作日太平洋时间 5am-11am,免费/Pro/Max 用户的 5 小时会话限制会收紧。周限额不变。重度用户注意错峰使用。(3,553 likes | 236 RTs) 详情 →

联邦法院批准 Anthropic 对美国国防部的初步禁令。 这是一个重要的法律先例 — AI 公司可以通过司法手段推回政府强制要求。细节对整个行业都有影响,值得仔细读判决原文。(28 likes | 2 RTs) 详情 →


🏗️ 值得一试

AI 辅助重写 JSONata,一天搞定,年省 50 万美元。 Reco.ai 用 AI 在一天内重写了 JSONata 依赖,直接砍掉了每年 $500K 的成本。这是 AI 辅助技术债务清理的最佳案例之一 — 找找你自己项目里有没有类似的重写候选目标。(55 likes | 49 RTs) 详情 →


🎓 模型小课堂

零样本泛化(Zero-Shot Generalization):训练一个模型识别猫和狗,然后给它看一张从没见过的狐狸照片,它也能描述出"这是一种四脚动物" — 这就是零样本泛化。模型不需要针对新数据微调,就能把学到的知识迁移到全新的输入上。今天的新闻里处处是这个概念:TRIBE v2 能预测从未扫描过的受试者的大脑反应,开源语音模型能识别从未听过的口音和声音。理解这个能力为什么重要:它决定了一个模型是只能在实验室里跑分,还是能在真实世界里干活。


⚡ 快讯

  • Google Search Live 全球扩展:AI 实时对话搜索覆盖所有 AI Mode 可用语言和地区。 链接
  • $7/月 VPS 上的 AI Agent:用 IRC 做通信层,极简主义 Agent 部署方案。 链接
  • Mollick:如果你的 AI 项目没失败过,说明你不够大胆。 (405 likes | 45 RTs) 链接
  • Latent Space 深度复盘 Anthropic 史上最大发布周。 链接
  • AI 辅助开发的新内循环正在形成。 (85 likes | 9 RTs) 链接
  • Google James Manyika 与 LL COOL J 对谈 AI 与创造力。 链接

🎯 今日精选

Meta TRIBE v2 的零样本神经预测不只是神经科学的炫技 — 它揭示了一个更大的规律:基础模型的 scaling law 不只适用于文本,同样适用于生物数据。用 700 多人的 fMRI 数据训练出的模型,能零样本预测从未见过的大脑对视觉和听觉的反应 — 这跟今天开源语音模型能泛化到未见过的口音是同一个底层原理。谁先攻克大脑信号到模型的对齐,谁就拿到了语音之后的下一个输入模态。今天同时爆发的开源 TTS 和 ASR 证明了语音这条路已经被走通,下一个前沿就是更直接的神经接口。这不是科幻,TRIBE v2 已经在做了。 详情 →


下期见 ✌️