OpenAI 模型独立证伪 80 年数学猜想
🔬 研究前沿
OpenAI 模型独立证伪 80 年数学猜想。
Paul Erdős 1946 年提出的平面单位距离问题,数学界啃了将近 80 年没啃动。现在一个通用 AI 模型自主完成了证伪 — 不是辅助人类,是独立发现。这意味着什么?规模化推理(scaled reasoning)而非领域专用求解器,可能才是 AI 做科学发现的正确路径。这会改变我们对科研资助和组织方式的思考。(11,586 likes | 1,546 RTs) 详情 →
NVIDIA 发布 Nemotron 扩散语言模型 — 一次生成所有 token。 自回归解码一个字一个字往外蹦,扩散模型(Diffusion LM)则是同时生成多个 token。NVIDIA 这次开源的 Nemotron-Labs-Diffusion 把这条路线从论文搬到了可用模型。推理经济学可能要被改写。(1,091 likes | 165 RTs) 详情 →
NanoGPT-Bench:你的 coding agent 能做研究吗? IntologyAI 放出内部 eval — 不测代码补全,测 AI R&D 能力:能不能设计实验、调超参、复现论文结果。第一个认真衡量"agent 即研究员"能力的基准。跑一下你的 agent,可能会对结果感到意外。(208 likes | 44 RTs) 详情 →
🧠 发布动态
Google I/O 2026:100 个发布,Gemini Omni 到 Universal Cart 全覆盖。
Google 选择了饱和轰炸策略 — Gemini Omni、Gemini 3.5 Flash、Universal Cart、Antigravity……一口气 100 个产品更新。信息量太大,建议按自己的技术栈挑着看。核心信号:Google 在用产品数量证明自己没掉队,但 Simon Willison 的吐槽说明开发者体验仍然是短板。 详情 →
Cohere 发布 Command A+ — 为硬件受限的企业而生。 MoE 架构,目标明确:在有限硬件上跑出最大性能。不追跑分榜首,追的是企业客户"这台机器能不能跑起来"的现实需求。如果你在做私有化部署,这个值得评估。(1,150 likes | 194 RTs) 详情 →
阿里 Qwen3.7-Max:Agent 前沿,Flash 价格。 通义千问团队新模型直奔 Agent 场景优化,声称性能超 Gemini Flash 3.5 且成本更低。开源权重阵营继续压缩与闭源模型的差距 — 对国内开发者来说,又多了一个不用翻墙就能用的强力选项。(593 likes | 236 RTs) 详情 →
💡 行业洞察
Spotify 首席架构师:日均 4500 次 Claude 驱动的部署。
这不是 PPT 数字 — Spotify 工程团队在 Code with Claude London 上展示了完整架构细节。4500 次/天意味着 Claude 已经深度嵌入他们的 CI/CD 流程,不是试点项目而是生产基础设施。这可能是目前最具说服力的大规模 AI 工程落地案例。(5,302 likes | 374 RTs) 详情 →
微软工程师公开演示用 Claude 构建 Agent — 不是 Copilot,不是 GPT。 微软高级 AI 开发者在公开场合展示用 Claude 而非自家产品构建 agent。信号很明确:即使在微软内部,多供应商策略也是现实。工具选择看效果,不看 logo。(1,548 likes | 230 RTs) 详情 →
Simon Willison 万赞长帖吐槽 Gemini 产品碎片化。 12K likes 的病毒式传播 — 个人版 vs 工作区版、AI Studio vs Cloud、不同产品线不同定价不同能力。Google I/O 发了 100 个产品,但开发者最需要的可能是一张清晰的产品地图。(11,935 likes | 1,226 RTs) 详情 →
OpenAI 给每个 YC 创业公司送 200 万美元 token。 Sam Altman 的分发策略:在这批创业者评估替代方案之前先锁定他们。Tokenmaxxing 时代来了 — 用 token 额度当获客工具,比传统 SaaS 折扣更直接更有效。(1,881 likes | 117 RTs) 详情 →
HuggingFace 联合创始人 Thomas Wolf:AI 正在重构软件本身。 不是"AI 帮你写代码"这么简单 — 从开发流程到商业模式到团队结构,整个软件行业的组织方式都在被改写。本周最值得细读的行业分析之一。(1,832 likes | 296 RTs) 详情 →
🔧 开发者工具
Anthropic 新指南:Computer Use 从 Demo 到生产。
Claude 操作真实 UI 的能力不再只是演示视频里的炫技 — 新博客详细覆盖了错误处理、可靠性模式和真实部署教训。如果你之前试过 Computer Use 觉得"不够稳",现在有了生产化的方法论。(1,941 likes | 149 RTs) 详情 →
Transformers v5.9.0:原生支持 Cohere Command A+ MoE。 想在本地跑 Cohere 新模型?升级 transformers 到 5.9.0 就行。HuggingFace 生态的快速跟进让新模型的可及性大幅提升。 详情 →
Kapso MCP:给你的 AI Agent 一个 WhatsApp 号码。 加个 MCP server,agent 就能收发 WhatsApp 消息。对做客服、销售自动化的团队来说,这是最简单的 agent-to-customer 通道。(620 likes | 31 RTs) 详情 →
Claude Code v2.1.144:后台会话恢复 + 会话中切模型。 /resume 恢复后台长时间运行的 session,/model 中途切换模型。跑多小时 agent session 的重度用户,生活质量提升。 详情 →
📝 技术实战
Claude Cowork 管 4000 个客户账户的完整打法。 Anthropic 自己的销售负责人怎么用 Claude Cowork 管理 4000 个账户 — 第一个详细的企业销售 AI 工作流案例。做收入团队的可以直接对照自己的流程看哪里能抄。 详情 →
结构化反压(Structural Backpressure)比更聪明的 Agent 更靠谱。 核心论点:与其追更强的模型,不如在 coding loop 里加形式化验证门控。"反压胜过脑子" — 在生产环境跑 coding agent 的人都该看看这个模式。(97 likes | 23 RTs) 详情 →
Anthropic 发布大规模运行 Claude Code 的最佳实践。 覆盖团队配置、权限管理、成本控制 — 来自几百人工程团队的真实经验。如果你的组织有 10+ 工程师在用 Claude Code,这是必读。(3,996 likes | 402 RTs) 详情 →
🏗️ 值得一试
Railway CEO:3M 用户、10 万注册/周、PR 正在消亡。 Jake Cooper 在 Latent Space 播客上的深度访谈 — Railway 看到 20 万美元以上的 coding agent 消费,他们的判断是 Pull Request 作为协作模式正在被 agent 时代淘汰。对做基础设施的人来说,这是 agent 原生云的一个具体样本。 详情 →
🎓 模型小课堂
扩散语言模型(Diffusion Language Models):你用过的 ChatGPT、Claude 都是自回归模型 — 像打字一样一个字一个字往外蹦。扩散语言模型换了个思路:先生成一堆"噪声",然后逐步去噪,最终同时得到所有 token。类比的话,自回归是从左到右写一行字,扩散模型是把一张模糊照片逐步变清晰。NVIDIA 今天开源的 Nemotron 扩散模型让这条路线从论文走向了实用 — 如果它能大幅降低推理延迟,自回归的一统天下可能要结束了。
⚡ 快讯
- Ethan Mollick:从"数不清 strawberry 几个 r"到证伪 80 年猜想,只用了两年。(621 likes | 101 RTs) 链接
- BBC 调查:对抗性 prompt 注入已成为 Google AI 搜索的 SEO 问题,不再只是学术讨论。(244 likes | 171 RTs) 链接
- Marlin-2B:2B 参数视频理解模型,本地可跑。(141 likes | 125 downloads) 链接
- Anthropic 邀哲学家和伦理学者参与 AI 性格塑造:把对齐当人文学科问题来做,行业里独此一家。(235 likes | 33 RTs) 链接
🎯 今日精选
通用模型证伪 80 年数学猜想 — 科学发现的范式可能要变了:Paul Erdős 1946 年提出的猜想,几代数学家没搞定,一个通用 AI 模型自主完成了证伪。这里的关键词是"通用" — 不是专门为数学训练的领域模型,而是规模化推理能力自然涌现出的数学发现能力。Ethan Mollick 说得好:两年前这些模型连 strawberry 有几个 r 都数不清。这意味着什么?也许我们不需要为每个科学领域训练专用模型,通用推理能力足够强就能做原创发现。这会深刻改变科研的资助逻辑和组织方式 — 投基础模型能力,可能比投领域专用系统回报更大。 详情 →
下期见 ✌️