OpenAI 模型独立证伪 80 年数学猜想

🔬 研究前沿

OpenAI 模型独立证伪 80 年数学猜想。

Paul Erdős 1946 年提出的平面单位距离问题，数学界啃了将近 80 年没啃动。现在一个通用 AI 模型自主完成了证伪 — 不是辅助人类，是独立发现。这意味着什么？规模化推理（scaled reasoning）而非领域专用求解器，可能才是 AI 做科学发现的正确路径。这会改变我们对科研资助和组织方式的思考。(11,586 likes | 1,546 RTs) 详情 →

NVIDIA 发布 Nemotron 扩散语言模型 — 一次生成所有 token。 自回归解码一个字一个字往外蹦，扩散模型（Diffusion LM）则是同时生成多个 token。NVIDIA 这次开源的 Nemotron-Labs-Diffusion 把这条路线从论文搬到了可用模型。推理经济学可能要被改写。(1,091 likes | 165 RTs) 详情 →

NanoGPT-Bench：你的 coding agent 能做研究吗？ IntologyAI 放出内部 eval — 不测代码补全，测 AI R&D 能力：能不能设计实验、调超参、复现论文结果。第一个认真衡量"agent 即研究员"能力的基准。跑一下你的 agent，可能会对结果感到意外。(208 likes | 44 RTs) 详情 →

🧠 发布动态

Google I/O 2026：100 个发布，Gemini Omni 到 Universal Cart 全覆盖。

Google 选择了饱和轰炸策略 — Gemini Omni、Gemini 3.5 Flash、Universal Cart、Antigravity……一口气 100 个产品更新。信息量太大，建议按自己的技术栈挑着看。核心信号：Google 在用产品数量证明自己没掉队，但 Simon Willison 的吐槽说明开发者体验仍然是短板。详情 →

Cohere 发布 Command A+ — 为硬件受限的企业而生。 MoE 架构，目标明确：在有限硬件上跑出最大性能。不追跑分榜首，追的是企业客户"这台机器能不能跑起来"的现实需求。如果你在做私有化部署，这个值得评估。(1,150 likes | 194 RTs) 详情 →

阿里 Qwen3.7-Max：Agent 前沿，Flash 价格。 通义千问团队新模型直奔 Agent 场景优化，声称性能超 Gemini Flash 3.5 且成本更低。开源权重阵营继续压缩与闭源模型的差距 — 对国内开发者来说，又多了一个不用翻墙就能用的强力选项。(593 likes | 236 RTs) 详情 →

💡 行业洞察

Spotify 首席架构师：日均 4500 次 Claude 驱动的部署。

这不是 PPT 数字 — Spotify 工程团队在 Code with Claude London 上展示了完整架构细节。4500 次/天意味着 Claude 已经深度嵌入他们的 CI/CD 流程，不是试点项目而是生产基础设施。这可能是目前最具说服力的大规模 AI 工程落地案例。(5,302 likes | 374 RTs) 详情 →

微软工程师公开演示用 Claude 构建 Agent — 不是 Copilot，不是 GPT。 微软高级 AI 开发者在公开场合展示用 Claude 而非自家产品构建 agent。信号很明确：即使在微软内部，多供应商策略也是现实。工具选择看效果，不看 logo。(1,548 likes | 230 RTs) 详情 →

Simon Willison 万赞长帖吐槽 Gemini 产品碎片化。 12K likes 的病毒式传播 — 个人版 vs 工作区版、AI Studio vs Cloud、不同产品线不同定价不同能力。Google I/O 发了 100 个产品，但开发者最需要的可能是一张清晰的产品地图。(11,935 likes | 1,226 RTs) 详情 →

OpenAI 给每个 YC 创业公司送 200 万美元 token。 Sam Altman 的分发策略：在这批创业者评估替代方案之前先锁定他们。Tokenmaxxing 时代来了 — 用 token 额度当获客工具，比传统 SaaS 折扣更直接更有效。(1,881 likes | 117 RTs) 详情 →

HuggingFace 联合创始人 Thomas Wolf：AI 正在重构软件本身。 不是"AI 帮你写代码"这么简单 — 从开发流程到商业模式到团队结构，整个软件行业的组织方式都在被改写。本周最值得细读的行业分析之一。(1,832 likes | 296 RTs) 详情 →

🔧 开发者工具

Anthropic 新指南：Computer Use 从 Demo 到生产。

Claude 操作真实 UI 的能力不再只是演示视频里的炫技 — 新博客详细覆盖了错误处理、可靠性模式和真实部署教训。如果你之前试过 Computer Use 觉得"不够稳"，现在有了生产化的方法论。(1,941 likes | 149 RTs) 详情 →

Transformers v5.9.0：原生支持 Cohere Command A+ MoE。 想在本地跑 Cohere 新模型？升级 transformers 到 5.9.0 就行。HuggingFace 生态的快速跟进让新模型的可及性大幅提升。详情 →

Kapso MCP：给你的 AI Agent 一个 WhatsApp 号码。 加个 MCP server，agent 就能收发 WhatsApp 消息。对做客服、销售自动化的团队来说，这是最简单的 agent-to-customer 通道。(620 likes | 31 RTs) 详情 →

Claude Code v2.1.144：后台会话恢复 + 会话中切模型。 /resume 恢复后台长时间运行的 session，/model 中途切换模型。跑多小时 agent session 的重度用户，生活质量提升。详情 →

📝 技术实战

Claude Cowork 管 4000 个客户账户的完整打法。 Anthropic 自己的销售负责人怎么用 Claude Cowork 管理 4000 个账户 — 第一个详细的企业销售 AI 工作流案例。做收入团队的可以直接对照自己的流程看哪里能抄。详情 →

结构化反压（Structural Backpressure）比更聪明的 Agent 更靠谱。 核心论点：与其追更强的模型，不如在 coding loop 里加形式化验证门控。"反压胜过脑子" — 在生产环境跑 coding agent 的人都该看看这个模式。(97 likes | 23 RTs) 详情 →

Anthropic 发布大规模运行 Claude Code 的最佳实践。 覆盖团队配置、权限管理、成本控制 — 来自几百人工程团队的真实经验。如果你的组织有 10+ 工程师在用 Claude Code，这是必读。(3,996 likes | 402 RTs) 详情 →

🏗️ 值得一试

Railway CEO：3M 用户、10 万注册/周、PR 正在消亡。 Jake Cooper 在 Latent Space 播客上的深度访谈 — Railway 看到 20 万美元以上的 coding agent 消费，他们的判断是 Pull Request 作为协作模式正在被 agent 时代淘汰。对做基础设施的人来说，这是 agent 原生云的一个具体样本。详情 →

🎓 模型小课堂

扩散语言模型（Diffusion Language Models）：你用过的 ChatGPT、Claude 都是自回归模型 — 像打字一样一个字一个字往外蹦。扩散语言模型换了个思路：先生成一堆"噪声"，然后逐步去噪，最终同时得到所有 token。类比的话，自回归是从左到右写一行字，扩散模型是把一张模糊照片逐步变清晰。NVIDIA 今天开源的 Nemotron 扩散模型让这条路线从论文走向了实用 — 如果它能大幅降低推理延迟，自回归的一统天下可能要结束了。

⚡ 快讯

Ethan Mollick：从"数不清 strawberry 几个 r"到证伪 80 年猜想，只用了两年。(621 likes | 101 RTs) 链接
BBC 调查：对抗性 prompt 注入已成为 Google AI 搜索的 SEO 问题，不再只是学术讨论。(244 likes | 171 RTs) 链接
Marlin-2B：2B 参数视频理解模型，本地可跑。(141 likes | 125 downloads) 链接
Anthropic 邀哲学家和伦理学者参与 AI 性格塑造：把对齐当人文学科问题来做，行业里独此一家。(235 likes | 33 RTs) 链接

🎯 今日精选

通用模型证伪 80 年数学猜想 — 科学发现的范式可能要变了：Paul Erdős 1946 年提出的猜想，几代数学家没搞定，一个通用 AI 模型自主完成了证伪。这里的关键词是"通用" — 不是专门为数学训练的领域模型，而是规模化推理能力自然涌现出的数学发现能力。Ethan Mollick 说得好：两年前这些模型连 strawberry 有几个 r 都数不清。这意味着什么？也许我们不需要为每个科学领域训练专用模型，通用推理能力足够强就能做原创发现。这会深刻改变科研的资助逻辑和组织方式 — 投基础模型能力，可能比投领域专用系统回报更大。详情 →

下期见 ✌️