Claude Design 加入设计系统记忆、画布编辑和 Claude Code 同步
🧠 发布动态
Claude Design 加入设计系统记忆、画布编辑和 Claude Code 同步。
不是"AI 出个图"那种玩具 — 现在 Claude Design 能记住你的设计系统规范,跨项目保持品牌一致性,直接在画布上编辑,还能和 Claude Code 双向同步。对设计团队来说,这意味着从出图到落地代码的链路彻底打通了。结合更多第三方工具集成,这是 Anthropic 在设计领域的认真一击。(6,172 likes | 418 RTs) 详情 →
GLM-5.2 在独立评测中登顶开源模型。
智谱的 GLM-5.2 在 Artificial Analysis Intelligence Index 上拿下开源权重模型第一 — 注意,这是第三方独立验证,不是自己跑的分。100 万 token 上下文、IS Attention 机制专为长程任务设计。对还在 Llama 和 Qwen 之间纠结的团队:多了一个认真的选项。(759 likes | 377 RTs) 详情 →
🔬 研究前沿
GPT-5.4 驱动药物发现从文献到实验验证的完整闭环。
这条是今天最重磅的 — GPT-5.4 自主从文献中识别出一种药物发现反应的改进方案,然后这个方案在真实湿实验室中被验证有效。不是"AI 建议了一个方向人类去做了",而是 AI 完成了从文献综述到实验设计的全流程。这是自主研究 Agent 从概念走向现实的标志性事件。(2,006 likes | 184 RTs) 详情 →
谷歌 AMIE 在复杂疾病管理中达到全科医生水平。
发表在 Nature 上 — Google 的 AMIE 对话式医疗 AI 在复杂慢病管理任务中匹配了全科医生的表现。这是医疗 AI 迄今为止获得的最高级别临床验证。不过从"论文验证"到"实际部署"还有很长的路,但方向是清晰的。 详情 →
LifeSciBench:750 道专家级任务,测的是 AI 在生命科学中真正有用的能力:OpenAI 发布的新 benchmark 覆盖 7 个生物研究工作流,由领域专家出题。终于有人在测"AI 能不能帮科学家干活"而不只是"AI 能不能生成看起来正确的文本"。做 Bio AI 的应该认真看看评测方法论。(1,521 likes | 144 RTs) 详情 →
NVIDIA ENPIRE 系统幕后:让 8 个 AI Agent 无人值守跑一夜机器人需要什么:Jim Fan 的技术拆解 — 安全护栏、token 预算控制、以及让 AI Agent 在物理世界自主运行的真实工程挑战。不是"AI 控制机器人"的 demo,而是量产级的安全架构设计。做具身智能的必读。(431 likes | 40 RTs) 详情 →
🔧 开发者工具
Claude Platform 支持 Workload Identity Federation — 告别静态 API Key:企业安全团队等了很久的功能。现在可以用云厂商的身份联邦机制访问 Claude API,不再需要硬编码密钥。生产环境部署 Claude 的,今天就去配。 详情 →
HuggingFace Agent 现在能编程式搜索 Hub 了:Agent 可以自主发现和搜索模型、数据集、Spaces — 这是 Agent 原生 ML 工作流的基础设施级能力。你的 Agent 不再需要你手动告诉它用哪个模型,它自己能找。 详情 →
Claude Code v2.1.181:/config 语法、沙箱事件、更安静的通知:新版本加入 /config key=value 快捷语法、Apple Events 沙箱支持、通过 presence 文件抑制推送通知。日常用 Claude Code 的开发者,小但实在的体验改进。 详情 →
📝 技术实战
100+ Agent 协作优化 Gemma 4 速度 — 一场众包实验:HuggingFace 发起了一个有趣的实验:让来自全球的 100 多个 Agent 协作完成一个简单目标 — 让 Gemma 4 跑得更快。这是 Agent 群体智能解决基础设施问题的早期信号,也可能是未来开源优化的新模式。(1,907 likes | 147 RTs) 详情 →
GLM-5.2 的 IS Attention 机制拆解:为长程任务设计的架构:智谱的技术深度文章解释了 GLM-5.2 如何通过 IS Attention 实现 100 万 token 上下文的高效推理。评估开源模型替代方案的技术决策者,这篇是必读材料。 详情 →
Google Cloud 把 LLM-Wiki 模式正式写成开放规范:Open Knowledge Format(OKF)— 把组织知识结构化给 AI Agent 用的标准格式。如果被广泛采纳,这可能成为企业给 Agent 喂上下文的事实标准。值得早期关注和评估。(32 likes | 10 RTs) 详情 →
💡 行业洞察
Anthropic 开设首尔办公室,押注韩国 AI 生态:Anthropic 的第一个亚太办公室落地韩国,同步宣布多项本地合作。模式很清楚 — 不是简单的"进入亚洲市场",而是深度绑定一个技术生态。对中国 AI 企业出海来说,韩国市场的竞争又多了一个重量级玩家。 详情 →
泄露文件揭示 OpenAI 每年亏损数十亿美元:Ars Technica 拿到的财务文件显示,OpenAI 的推理服务毛利率超过 40%,但训练前沿模型的成本在疯狂烧钱。前沿 AI 的单位经济终于透明了 — 服务能赚钱,但下一代模型的训练是无底洞。这解释了为什么所有大厂都在拼命提高推理效率。(194 likes | 117 RTs) 详情 →
Anthropic 创始人手册:AI 原生创业框架:不是泛泛的"如何用 AI"指南,而是从 AI 增强到 AI 原生的公司架构转变的实操框架。正在建 AI 创业公司的,这比大多数 VC 写的"AI 趋势报告"有用十倍。(205 likes | 152 RTs) 详情 →
GPT-Realtime 2 作为 AI 原生操作系统层的论证:一个开发者提出,GPT-Realtime 2 不只是语音 API — 它是以语音为主要交互模式的 AI 原生操作系统的界面层。论证有趣但还需要时间验证,不过方向值得关注:当语音变成第一交互界面,应用形态会根本性改变。(1,366 likes | 80 RTs) 详情 →
🏗️ 值得一试
Claude Opus 4.8 Hackathon 获奖项目:值得偷师的模式:Anthropic 公布了 Opus 4.8 Build Day 的获奖项目 — 如果你在 Claude 平台上开发,这些项目展示了最新模型能力的边界在哪里,比官方文档更直观。 详情 →
从 HuggingFace Hub 到物理机器人,只需几小时:Amazon Strands Agents + HuggingFace LeRobot 组成了一条从模型库到实体机器人的完整 pipeline。做机器人 ML 的门槛从"几个月"降到"几小时"。教程详尽,动手就能跑。 详情 →
🎓 模型小课堂
自主研究 Agent(Autonomous Research Agents):GPT-5.4 的化学实验结果、NVIDIA 的 ENPIRE 系统、HuggingFace 的 100 Agent 优化 Gemma — 它们跑的是同一个模式:AI 自主规划、执行、验证多步骤研究,全程不需要人类引导。这个循环的关键在"验证"环节 — AI 不只是生成假设,还能设计实验确认假设是否成立。理解这个闭环的工作原理和失败模式(比如验证环节的幻觉风险),是区分真实能力和营销炒作的关键。
⚡ 快讯
- Claude Design 发布推文:获得 6,172 likes,设计社区反响强烈。 链接
- Fable 争议最大赢家是开源:Bloomberg、Fortune 一致认为 Anthropic 的出口争议是开源 AI 史上最大的 PR 胜利。(313 likes) 链接
- HumanLayer 开源 Research-Plan-Implement 反 slop 模式:结构化方法防止 AI 生成垃圾代码,已被生产团队验证。(796 likes) 链接
- Adam (YC W25):开源 AI CAD,给硬件工程师的 AI 辅助设计工具。(143 likes) 链接
- Ollama v0.30.10:新增 Cohere2MoE 模型支持。 链接
🎯 今日精选
GPT-5.4 的湿实验室验证不是关于模型有多聪明 — 而是自主研究闭环真的能跑通了:今天最值得深思的不是又一个 AI benchmark 刷新,而是 GPT-5.4 完成了从文献综述到实验室验证的完整链路。这意味着什么?自主研究 Agent 不再是"AI 提建议,人类去做"的模式,而是 AI 可以独立完成研究的 plan-execute-validate 循环。对制药 R&D 来说,这不是"提效 X%"的故事,而是"时间线压缩以年为单位"的故事。当然,一个成功案例不代表通用能力,验证环节的可靠性仍然是瓶颈 — 但方向已经不可逆了。关注这个领域的,现在是时候认真评估 AI 在你的研究工作流中能闭环到什么程度。 详情 →
延伸阅读:如果你在评估 AI 编码工具的选择,可以看看我们近期的对比分析 — Claude Code vs Codex
下期见 ✌️