Claude Design 来了：Anthropic 押注可视化原型设计

🧠 发布动态

Claude Design 来了：Anthropic 押注可视化原型设计。

不是在聊天框里糊 UI 截图 — Claude 现在能直接做交互式原型。近 6000 个赞说明开发者等这个等很久了。对前端和产品团队来说，这意味着从想法到可交互原型的路径被压缩到了分钟级。下次画原型前，先试试让 Claude 帮你出第一版。(5,784 likes | 179 RTs) 详情 →

Claude 接入企业合规与安全工具链。

"我们没法像管其他 SaaS 一样管 Claude" — 这个企业采购最常见的反对意见被正面回应了。Anthropic 发布合规 API，直接对接 IT 和安全团队的现有工具栈。如果你负责企业 AI 部署，现在可以用标准流程管理 Claude 了。详情 →

ChatGPT 能直接做 PPT 了。 不是生成文字让你自己排版 — 是原生创建可编辑的 PowerPoint 文件。OpenAI 继续往 Office 工作流里钻，这种"打开就能用"的集成才是真正推动企业日活的东西。ChatGPT Plus 用户可以试了。(1,554 likes | 106 RTs) 详情 →

阿里发布 Qwen3.7-Max，专为编码 Agent 打造。 这不是又一个通用大模型 — Qwen3.7-Max 明确针对长周期自主执行和 MCP 编排优化，直接跟 Claude 和 GPT 在 Agent 赛道上抢位置。国内开发者做 Agent 工作流的，值得拉过来跑个对比。(252 likes | 15 RTs) 详情 →

腾讯开源 Hy-MT2：33 种语言翻译模型登顶。 7B 和 30B-A3B 两个规格，开源模型里的翻译 SOTA。如果你还在为翻译 API 付费，这可能是个省钱的好时机 — 尤其是生产环境跑量大的场景。(374 likes | 54 RTs) 详情 →

🔧 开发者工具

Claude Code /usage 命令终于来了：你的 token 被哪个 Skill、Agent、MCP 吃掉的，现在一目了然。当你同时跑着好几个插件和工具时，知道预算花在哪里直接改变你的配置策略。下次开 Claude Code 先跑一把 /usage。(3,862 likes | 262 RTs) 详情 →

Claude Code v2.1.147：固定会话不再掉线，/code-review 上线：后台固定会话（pinned sessions）现在能扛住空闲和自动更新不断线；/simplify 改名为 /code-review，支持不同力度等级和直接在 GitHub 行内评论。上下文丢失问题少了一大块。详情 →

Anthropic Python SDK v0.104.0：流式输出中可查看思考 token 数量：新 beta 功能在流式 delta 中暴露预估的 thinking token 计数。如果你在生产环境用扩展思考（Extended Thinking），这是做成本监控和预算控制的关键数据。立刻更新 SDK 并启用 thinking-token-count beta。详情 →

Google Antigravity 接入 30+ 生命科学数据库：Google 的 Antigravity 平台拿到了专用的 Science Skills，整合了 30 多个主要生命科学数据库。以前需要分别登录不同平台查的数据，现在一个入口搞定。做生命科学研究的值得看看。(251 likes | 39 RTs) 详情 →

💡 行业洞察

特朗普拟签行政令：AI 模型发布前须经 90 天政府审查。

如果落地，这将彻底改变竞争格局。90 天审查意味着快速迭代模式被打断，开源发布节奏被扰乱，国际竞争格局被重新洗牌。据报道 OpenAI 和 Anthropic 已表示将配合。但关键问题是：谁来审、审什么标准、中国的模型不受这个约束 — 这些都还没答案。(69 likes | 6 RTs) 详情 →

安全团队怎么用 Opus：从威胁检测到事件响应的实战案例：不是"AI 能做安全"的空话 — 而是真实的合作伙伴案例，展示 Opus 在威胁检测、漏洞分析和事件响应中的具体用法。想在安全团队里部署 AI 的，这些模式值得参考。详情 →

推翻 Erdős 猜想只花了不到三杯燕麦拿铁的电费：Ethan Mollick 给 OpenAI 的数学证明算了笔账 — 0.6-6.3 千瓦时电力，3-31 升水。"AI 计算成本太高"的叙事，至少在研究领域需要重新审视了。(2,785 likes | 233 RTs) 详情 →

Daytona 日均 85 万次沙盒运行，月增长 74%：悄悄成了编码 Agent 的默认基础设施层。如果你在做需要计算环境的 Agent，Daytona 是目前增长最快的供应商。这个数据说明 Agent 不只是 demo 阶段了 — 大规模生产使用已经在发生。详情 →

🔬 研究前沿

OpenAI 模型推翻离散几何领域 80 年悬而未决的 Erdős 猜想。

不是"AI 辅助数学家"— 是模型自己找到了反例，推翻了 Erdős 在单位距离问题上的一个核心猜想。这是 AI 在纯数学领域最有说服力的成果之一。完整技术细节在 OpenAI 官方博客，想了解模型到底做了什么（而不只是知道它做到了），读这篇。(634 likes | 437 RTs) 详情 →

Mosaic：概率天气模型推动 ML 气象预报帕累托前沿：新模型在匹配最佳确定性预报精度的同时，提供了校准过的不确定性估计。在实际气象运营中，知道预测有多可靠和预测本身一样重要。(1,041 likes | 116 RTs) 详情 →

📝 技术实战

4 万星的泄露 System Prompt 合集：Opus 4.7、Sonnet 4.6、ChatGPT 5.5、Gemini 3.5 Flash 全都有：这个 repo 收集了各大 AI 产品被提取的系统提示词。不管你把它看成安全问题还是学习资源，看看各大实验室在生产环境里到底怎么写 prompt 的 — 这是最真实的 prompt engineering 教材。(40,549 likes | 6,743 RTs) 详情 →

🏗️ 值得一试

Datasette Agent：Simon Willison 做了个 AI 数据库探索工具：把 Datasette 和 AI Agent 组合起来，让 Agent 自主探索、查询、分析数据库。如果你经常需要快速搞懂一个陌生数据库，这个工具能省你大量时间。详情 →

physics-intern：一个简单 harness 让 Gemini 物理题得分翻倍：从 17.7% 拉到 31%，靠的不是更大的模型而是更好的提示结构。这说明评测方法论上还有大量唾手可得的优化空间 — 你的模型可能比你以为的聪明，只是你问问题的方式不对。(296 likes | 43 RTs) 详情 →

🎓 模型小课堂

测试时计算（Test-Time Compute / Thinking Tokens）：你知道模型可以"想得更深"吗？普通请求模型直接给答案，但开启扩展思考后，模型会在回答前进行一段内部推理 — 这些推理消耗的 token 就叫 thinking tokens。Anthropic 的 SDK 现在在流式输出中直接暴露了 thinking token 计数。这意味着什么？"模型想得越久，回答越好，但也越贵"正在从实验室概念变成生产环境的预算行项。以后选模型不只看能力，还要看"让它想多久"的性价比。

⚡ 快讯

OpenAI Codex 上线 Goals 功能：定义高层目标让 Agent 自主执行，codex features enable goals 开启。(368 likes | 23 RTs) 链接
Kimi K2.6：Moonshot 开源模型，编码 + 设计 + 同时跑 100 个 Agent，成本远低于闭源方案。(172 likes | 109 RTs) 链接
Simon Willison 发问：Google 的"Antigravity"到底是什么？Agent 产品命名混乱可能坑到开发者。(212 likes | 7 RTs) 链接
Cursor 推出 Automations：无需 repo 和跨 repo 的 Agent 工作流，上线 7 天五折。(19 likes) 链接
DeepMind 亚太加速器计划启动：聚焦环境 AI — 气候、灾害响应、物种保护。链接

🎯 今日精选

特朗普的 90 天审查窗口不会让前沿实验室慢下来 — 只会让追赶者出局：表面上看，AI 模型发布前 90 天政府审查是"让所有人慢下来想清楚"。但实际效果恰恰相反。OpenAI 和 Anthropic 这样的公司本来就以季度为周期迭代，90 天对它们来说只是把发布排期往前挪一格。真正被卡住的是开源社区和创业公司 — 它们没有合规团队、没有法务部门、没有跟政府谈判的筹码。合规成本是固定的，但大公司可以摊薄到每个用户头上，小团队不行。如果这个行政令落地，最终结果是前沿实验室的领先地位被制度化 — 不是靠技术优势，而是靠合规壁垒。详情 →

下期见 ✌️