Claude Design 来了:Anthropic 押注可视化原型设计
🧠 发布动态
Claude Design 来了:Anthropic 押注可视化原型设计。
不是在聊天框里糊 UI 截图 — Claude 现在能直接做交互式原型。近 6000 个赞说明开发者等这个等很久了。对前端和产品团队来说,这意味着从想法到可交互原型的路径被压缩到了分钟级。下次画原型前,先试试让 Claude 帮你出第一版。(5,784 likes | 179 RTs) 详情 →
Claude 接入企业合规与安全工具链。
"我们没法像管其他 SaaS 一样管 Claude" — 这个企业采购最常见的反对意见被正面回应了。Anthropic 发布合规 API,直接对接 IT 和安全团队的现有工具栈。如果你负责企业 AI 部署,现在可以用标准流程管理 Claude 了。 详情 →
ChatGPT 能直接做 PPT 了。 不是生成文字让你自己排版 — 是原生创建可编辑的 PowerPoint 文件。OpenAI 继续往 Office 工作流里钻,这种"打开就能用"的集成才是真正推动企业日活的东西。ChatGPT Plus 用户可以试了。(1,554 likes | 106 RTs) 详情 →
阿里发布 Qwen3.7-Max,专为编码 Agent 打造。 这不是又一个通用大模型 — Qwen3.7-Max 明确针对长周期自主执行和 MCP 编排优化,直接跟 Claude 和 GPT 在 Agent 赛道上抢位置。国内开发者做 Agent 工作流的,值得拉过来跑个对比。(252 likes | 15 RTs) 详情 →
腾讯开源 Hy-MT2:33 种语言翻译模型登顶。 7B 和 30B-A3B 两个规格,开源模型里的翻译 SOTA。如果你还在为翻译 API 付费,这可能是个省钱的好时机 — 尤其是生产环境跑量大的场景。(374 likes | 54 RTs) 详情 →
🔧 开发者工具
Claude Code /usage 命令终于来了:你的 token 被哪个 Skill、Agent、MCP 吃掉的,现在一目了然。当你同时跑着好几个插件和工具时,知道预算花在哪里直接改变你的配置策略。下次开 Claude Code 先跑一把 /usage。(3,862 likes | 262 RTs) 详情 →
Claude Code v2.1.147:固定会话不再掉线,/code-review 上线:后台固定会话(pinned sessions)现在能扛住空闲和自动更新不断线;/simplify 改名为 /code-review,支持不同力度等级和直接在 GitHub 行内评论。上下文丢失问题少了一大块。 详情 →
Anthropic Python SDK v0.104.0:流式输出中可查看思考 token 数量:新 beta 功能在流式 delta 中暴露预估的 thinking token 计数。如果你在生产环境用扩展思考(Extended Thinking),这是做成本监控和预算控制的关键数据。立刻更新 SDK 并启用 thinking-token-count beta。 详情 →
Google Antigravity 接入 30+ 生命科学数据库:Google 的 Antigravity 平台拿到了专用的 Science Skills,整合了 30 多个主要生命科学数据库。以前需要分别登录不同平台查的数据,现在一个入口搞定。做生命科学研究的值得看看。(251 likes | 39 RTs) 详情 →
💡 行业洞察
特朗普拟签行政令:AI 模型发布前须经 90 天政府审查。
如果落地,这将彻底改变竞争格局。90 天审查意味着快速迭代模式被打断,开源发布节奏被扰乱,国际竞争格局被重新洗牌。据报道 OpenAI 和 Anthropic 已表示将配合。但关键问题是:谁来审、审什么标准、中国的模型不受这个约束 — 这些都还没答案。(69 likes | 6 RTs) 详情 →
安全团队怎么用 Opus:从威胁检测到事件响应的实战案例:不是"AI 能做安全"的空话 — 而是真实的合作伙伴案例,展示 Opus 在威胁检测、漏洞分析和事件响应中的具体用法。想在安全团队里部署 AI 的,这些模式值得参考。 详情 →
推翻 Erdős 猜想只花了不到三杯燕麦拿铁的电费:Ethan Mollick 给 OpenAI 的数学证明算了笔账 — 0.6-6.3 千瓦时电力,3-31 升水。"AI 计算成本太高"的叙事,至少在研究领域需要重新审视了。(2,785 likes | 233 RTs) 详情 →
Daytona 日均 85 万次沙盒运行,月增长 74%:悄悄成了编码 Agent 的默认基础设施层。如果你在做需要计算环境的 Agent,Daytona 是目前增长最快的供应商。这个数据说明 Agent 不只是 demo 阶段了 — 大规模生产使用已经在发生。 详情 →
🔬 研究前沿
OpenAI 模型推翻离散几何领域 80 年悬而未决的 Erdős 猜想。
不是"AI 辅助数学家"— 是模型自己找到了反例,推翻了 Erdős 在单位距离问题上的一个核心猜想。这是 AI 在纯数学领域最有说服力的成果之一。完整技术细节在 OpenAI 官方博客,想了解模型到底做了什么(而不只是知道它做到了),读这篇。(634 likes | 437 RTs) 详情 →
Mosaic:概率天气模型推动 ML 气象预报帕累托前沿:新模型在匹配最佳确定性预报精度的同时,提供了校准过的不确定性估计。在实际气象运营中,知道预测有多可靠和预测本身一样重要。(1,041 likes | 116 RTs) 详情 →
📝 技术实战
4 万星的泄露 System Prompt 合集:Opus 4.7、Sonnet 4.6、ChatGPT 5.5、Gemini 3.5 Flash 全都有:这个 repo 收集了各大 AI 产品被提取的系统提示词。不管你把它看成安全问题还是学习资源,看看各大实验室在生产环境里到底怎么写 prompt 的 — 这是最真实的 prompt engineering 教材。(40,549 likes | 6,743 RTs) 详情 →
🏗️ 值得一试
Datasette Agent:Simon Willison 做了个 AI 数据库探索工具:把 Datasette 和 AI Agent 组合起来,让 Agent 自主探索、查询、分析数据库。如果你经常需要快速搞懂一个陌生数据库,这个工具能省你大量时间。 详情 →
physics-intern:一个简单 harness 让 Gemini 物理题得分翻倍:从 17.7% 拉到 31%,靠的不是更大的模型而是更好的提示结构。这说明评测方法论上还有大量唾手可得的优化空间 — 你的模型可能比你以为的聪明,只是你问问题的方式不对。(296 likes | 43 RTs) 详情 →
🎓 模型小课堂
测试时计算(Test-Time Compute / Thinking Tokens):你知道模型可以"想得更深"吗?普通请求模型直接给答案,但开启扩展思考后,模型会在回答前进行一段内部推理 — 这些推理消耗的 token 就叫 thinking tokens。Anthropic 的 SDK 现在在流式输出中直接暴露了 thinking token 计数。这意味着什么?"模型想得越久,回答越好,但也越贵"正在从实验室概念变成生产环境的预算行项。以后选模型不只看能力,还要看"让它想多久"的性价比。
⚡ 快讯
- OpenAI Codex 上线 Goals 功能:定义高层目标让 Agent 自主执行,
codex features enable goals开启。(368 likes | 23 RTs) 链接 - Kimi K2.6:Moonshot 开源模型,编码 + 设计 + 同时跑 100 个 Agent,成本远低于闭源方案。(172 likes | 109 RTs) 链接
- Simon Willison 发问:Google 的"Antigravity"到底是什么?Agent 产品命名混乱可能坑到开发者。(212 likes | 7 RTs) 链接
- Cursor 推出 Automations:无需 repo 和跨 repo 的 Agent 工作流,上线 7 天五折。(19 likes) 链接
- DeepMind 亚太加速器计划启动:聚焦环境 AI — 气候、灾害响应、物种保护。 链接
🎯 今日精选
特朗普的 90 天审查窗口不会让前沿实验室慢下来 — 只会让追赶者出局:表面上看,AI 模型发布前 90 天政府审查是"让所有人慢下来想清楚"。但实际效果恰恰相反。OpenAI 和 Anthropic 这样的公司本来就以季度为周期迭代,90 天对它们来说只是把发布排期往前挪一格。真正被卡住的是开源社区和创业公司 — 它们没有合规团队、没有法务部门、没有跟政府谈判的筹码。合规成本是固定的,但大公司可以摊薄到每个用户头上,小团队不行。如果这个行政令落地,最终结果是前沿实验室的领先地位被制度化 — 不是靠技术优势,而是靠合规壁垒。 详情 →
下期见 ✌️