Anthropic 正式把 Claude 定位为创意伙伴
🧠 发布动态
Anthropic 正式把 Claude 定位为创意伙伴。
不只是写代码和分析数据了 — Anthropic 官宣 Claude 进军创意领域,覆盖写作、设计、艺术协作。这是战略层面的扩张信号:当编程助手赛道卷到极致,创意场景是下一个增长引擎。对内容创作者来说,值得现在就去测试 Claude 在你工作流里的表现。 详情 →
Unity AI 开放测试:内置 Agent、AI Gateway、MCP Server 全上。
最大的游戏引擎正式拥抱 Agent AI — 编辑器内置 AI Agent、支持接入任意模型的 AI Gateway、以及 MCP Server 集成。这不是"加个代码补全"的小打小闹,而是让 Agent 能在 Unity 编辑器里完成完整的创作循环。影响数百万开发者的基础设施级变化。(3,423 likes | 346 RTs) 详情 →
🔧 开发者工具
Anthropic Python SDK v0.98.0 — 企业级认证全家桶落地:Managed Agents API 改进、Workload Identity Federation、交互式 OAuth、Auth Profiles — 一次性把企业认证栈补齐了。如果你在生产环境跑 Claude,这个版本解决了"怎么安全地在组织内分发 API 访问"的问题。 详情 →
TypeScript SDK v0.93.0 同步跟进:和 Python SDK 一样的企业认证能力 — Workload Identity Federation + OAuth。两个 SDK 生态现在认证能力对齐,全栈团队不用再为语言选择妥协安全性。 详情 →
Gemini API 上线事件驱动 Webhooks:终于不用轮询了。长时间运行的异步任务(批量推理、长上下文处理)现在支持推送通知。对跑 Gemini 批处理的团队来说,这能显著降低延迟和资源浪费。迁移成本低,收益大。 详情 →
Claude Code v2.1.128:.zip 插件包支持、/mcp 工具数量诊断、--channels 控制台认证。管理多插件团队的体验改善明显 — zip 打包分发插件比以前方便太多。 详情 →
🔬 研究前沿
DeepSeek V4 Pro 登顶开源,声称击败 Opus 4.7 和 GPT 5.5。
成本还只有十分之一。如果跑分经得住验证,这是本季度最大的开源前沿突破。关键不只是"又一个开源模型追上来了" — 而是成本曲线压缩的速度比闭源实验室变现的速度还快。企业买家在定价谈判中第一次有了真正的筹码。(1,021 likes | 110 RTs) 详情 →
Blueprint-Bench 2 结果出炉:GPT 5.5 第一,Gemini 3.1 Pro 和 Opus 4.7 紧随其后 — 但人类依然显著领先所有模型。前沿模型在逼近,但"AGI 马上来"的叙事在这个 benchmark 上还站不住脚。(144 likes | 9 RTs) 详情 →
DeepSeek V4 的自我测试:双刃剑:Proximal 分析发现 V4 会自己写测试来验证代码 — 正确时表现更好,但错误时会"自信地错下去"。打算用 V4 做自主编程的团队注意:它的自我验证不能替代外部测试。(9 likes | 2 RTs) 详情 →
Mollick:前沿 Agent 的跑分正在失去信号:重复跑长任务 benchmark 不仅贵得离谱,而且 harness 和 API 调用之间结果差异巨大。当我们最需要可靠评测的时候,评测本身正在变得不可靠。做模型选型的团队,别只看排行榜数字。(201 likes | 7 RTs) 详情 →
📝 技术实战
Context Engineering:AI 编程中最被低估的一层:Patrick Debois 在 keynote 中指出 — prompt、规则、记忆这些上下文层,值得和模型本身一样的工程严谨度。随着编程 Agent 成熟,context engineering 正在成为"能用"和"生产级"之间的真正分水岭。审视一下你自己的 CLAUDE.md 和 prompt 体系,这可能比换模型更有效。(259 likes | 32 RTs) 详情 →
Granite 4.1 3B vs SVG 鹈鹕:小模型能画什么? Simon Willison 用 IBM 的 30 亿参数小模型测试 SVG 生成能力。结论:小模型在受限的创意任务上表现出乎意料 — 对需要本地部署、低延迟生成的场景有实际价值。 详情 →
💡 行业洞察
Sierra 八个季度做到 1.5 亿美元 ARR,估值超 150 亿。
Bret Taylor 的 AI 客服公司用不到两年证明了一件事:企业 Agent 部署不是 demo,是真金白银的收入品类。$950M 新融资、$15B+ 估值 — 这是 AI Agent 商业化最强的数据点。 详情 →
白宫考虑对 AI 模型设新护栏:Trump 政府正在权衡对强力 AI 模型的新审查流程,可能通过行政令实施。用前沿模型的企业需要关注 — 这可能影响部署时间线和合规要求。 详情 →
Cisco 收购 Agent 安全创业公司 Astrix:网络巨头下场确认了一件事 — Agent 安全已经成为独立的收购品类。当自主 Agent 大规模部署,新的攻击面随之而来,安全市场正在快速响应。 详情 →
AI 该是工具还是伙伴? Latent Space 讨论 AI 产品设计的根本张力:Clippy 路线(纯工具)vs Anton 路线(有性格的协作者)。Claude 选创意伙伴、GPT 选效率工具 — 这个分化会越来越明显,做 AI 产品的都该想清楚自己站哪边。 详情 →
🏗️ 值得一试
HuggingFace 模型可视化器:输入任意模型 URL,逐层探索架构细节。做 fine-tuning 前想搞清楚模型结构?部署前想理解瓶颈在哪?这个工具比看论文直观 10 倍。(2,295 likes | 263 RTs) 详情 →
TinyFish:免费的 Web 搜索和抓取 MCP 服务:两步接入 Claude Code、Codex 或 Cursor — 让你的编程 Agent 免费获得实时网络搜索能力,不用额外付 API 费。实用性极高。(34 likes | 7 RTs) 详情 →
🎓 模型小课堂
混合专家模型(MoE)与推理成本经济学:DeepSeek V4 Pro 能做到 10 倍低成本不是魔法 — 关键在 MoE 架构。想象一个公司有 100 个专家,但每个问题只叫 8 个人来开会。MoE 模型参数量虽大,但每次推理只激活一小部分参数,所以计算成本远低于同等"总参数量"的稠密模型。这就是为什么"参数量"不再是衡量模型能力的有效指标 — 真正重要的是激活参数量和路由效率。理解 MoE,你就理解了开源模型为什么能以极低成本逼近闭源前沿。
⚡ 快讯
- Google AI 四月回顾:官方月度总结,一站式补课你可能错过的更新。 链接
- Palantir Q1:营收增长 85% 至 $1.6B,上调全年预期至 71% 增长。AI 平台支出在加速。 链接
- OpenAI Python SDK v2.34.0:支持按 endpoint 分配 Admin API Key,多服务管理更精细。 链接
- Mollick 注意到 Anthropic 联合创始人只引用公开来源谈 AI 进展:言外之意 — 内部看到的可能比公开信息更惊人。(879 likes | 39 RTs) 链接
🎯 今日精选
DeepSeek V4 Pro 击败 Opus 4.7 和 GPT 5.5 — 开源成本曲线正在压垮闭源定价逻辑:这不只是一个跑分新闻。DeepSeek V4 Pro 以十分之一的成本达到甚至超过闭源前沿模型的性能,这意味着开源的成本压缩速度比闭源实验室的变现速度还快。对企业买家来说,谈判桌上终于有了真正的替代选项 — "你要是定价太高,我切 DeepSeek 就行"。对闭源实验室来说,纯模型能力不再是护城河,生态、工具链、Agent 平台才是。MoE 架构的成本优势在这一代模型上被推到了极致,而这只是开始。 详情 →
下期见 ✌️