NewsletterBlogLearnCompareTopicsGlossary
English
INSIGHTTOOLLAUNCHTECHNIQUERESEARCHBUILD

23 条资讯

微软自研代码模型 MAI-Code-1-Flash 发布

🧠 发布动态

微软自研代码模型 MAI-Code-1-Flash 发布。

微软不再只靠 OpenAI 了 — MAI-Code-1-Flash 是微软自己训练的第一个代码基础模型,早期跑分看起来有竞争力。这意味着 AI 代码市场从"双雄争霸"变成了三方混战。对开发者来说,更多选择、更多价格压力,都是好事。关注后续是否会整合进 VS Code 和 GitHub Copilot。(361 likes | 163 RTs) 详情 →

OpenAI 把 Codex 变成了角色专家平台。

OpenAI 的 Codex 插件大扩容 — 62 个应用、110 项技能,从销售到数据分析到产品设计,按角色定制的 AI 专家一键安装。这不再是"一个通用 AI 助手"的思路,而是"每个岗位一个 AI 同事"。插件生态的密度决定了平台的粘性,OpenAI 在抢占这个入口。(2,435 likes | 197 RTs) 详情 →

Claude Mythos Preview 扩展到 150+ 组织。 Anthropic 的 Project Glasswing 继续推进,Claude Mythos Preview 向约 150 个新组织开放。这是 Anthropic 最强模型层级的更广泛测试 — 如果你的公司在 AI 应用上有一定规模,现在是申请的好时机。(3,137 likes | 328 RTs) 详情 →

Google DeepMind 发布 Co-Scientist 多智能体研究系统。 基于 Gemini 的多智能体系统,能生成、辩论和迭代研究假设。不是帮你查文献的工具,而是能跟你一起"想问题"的研究伙伴。谷歌在"AI 做科研"这条路上押得越来越重。(843 likes | 171 RTs) 详情 →

H Company 开源 Holo 3.1 — 本地运行的电脑操控 Agent。 法国 AI 创业公司 H Company 发布 Holo 3.1,专为本地 GUI 自动化打造的开源大语言模型(LLM),不依赖云端。对隐私敏感场景和离线环境来说,这是目前最实用的选择。(825 likes | 93 RTs) 详情 →


🔧 开发者工具

Claude Code 上线确定性多智能体工作流。

这篇官方技术博客详细讲了 Claude Code 的工作流系统 — 用确定性控制流(循环、管道、屏障)编排多个 AI Agent,而不是让 Agent 自己决定下一步做什么。核心理念:在不可预测的智能外面套一层可预测的结构。想用 Claude Code 跑复杂任务的,这篇是必读。 详情 →

Claude API 不再对拒绝响应收费。 实打实的省钱 — 如果请求返回 stop_reason: refusal 且没有输出内容,这次调用免费。跑安全过滤密集型工作负载的团队,去更新你的账单监控逻辑。 详情 →

Claude Code v2.1.161 更新。 OTEL 资源属性现在作为指标标签暴露(可以按团队/仓库切片分析用量),Agent 进度显示完成/总数计数,/mcp 命令自动折叠未使用的连接器。做可观测性的团队会喜欢这个更新。 详情 →


📝 技术实战

Claude Code 工作流:什么时候用 pipeline,什么时候用 parallel? Anthropic 工程师拆解了工作流的最佳实践和具体示例。核心原则:pipeline 是默认选择(每个 item 独立流过所有阶段),只有当你真的需要所有上一阶段结果才能继续时,才用 parallel 做屏障。这是官方博客的实战配套,建议对照着看。(1,906 likes | 125 RTs) 详情 →

Anthropic 工程师如何 review Claude 的工作输出。 这条有 7800+ 赞不是没原因的 — 当 AI 帮你写了大量代码后,怎么高效审查和理解它做了什么?Anthropic 内部的做法:不是逐行看 diff,而是让 Claude 解释改动的意图,然后验证关键路径。用 Claude Code 的都该试试这个方法。(7,872 likes | 481 RTs) 详情 →

Kapa.ai 如何让图片在 RAG 中可搜索。 RAG 系统的一个老大难问题:文档里的图片(架构图、截图、图表)怎么被检索到?Kapa.ai 分享了他们的工程方案 — 对图片做结构化索引,让它和文本一样参与检索。做多模态 RAG 的可以直接抄作业。(79 likes | 8 RTs) 详情 →


🔬 研究前沿

AI 写了 17.3 倍的代码,但产品发布只多了 30%。 基于 GitHub 数据的大规模研究发现,远程编码 Agent 的代码产出量是基线的 17.3 倍,但实际产品发布量只增加了约 30%。差距在哪?人工审查、测试、发布流程成了新瓶颈。这不是工具的问题,是组织的问题 — 你给一辆堵在路上的车装了更快的引擎。(334 likes | 42 RTs) 详情 →

Gemini 在盲评中 75% 的场景胜过法学教授。 实验设计很扎实:法学教授出题,Gemini 和人类分别作答,其他教授盲评打分。结果 Gemini 在 75% 的对比中胜出,而且被评为比人类答案"更无害"。法律 AI 的可行性论证又多了一个硬数据。(542 likes | 74 RTs) 详情 →


💡 行业洞察

Anthropic 分享 AI 原生工程团队的运营手册。

这不是泛泛而谈的"AI 转型指南",而是 Anthropic 自己团队的实战经验 — 怎么围绕 AI 重组工程流程、怎么让人和 Agent 高效协作、怎么衡量 AI 带来的真实产出。管理技术团队的,这篇比任何咨询报告都实在。 详情 →

Anthropic 向 SEC 递交 S-1 草案。 IPO 进程正式启动。等公开版 S-1 发布时,我们将首次看到一家前沿 AI 实验室的完整财务数据 — 收入、成本、烧钱速度。这会是理解 AI 行业真实经济模型的最透明窗口。(426 likes | 338 RTs) 详情 →

特朗普签署缩水版 AI 行政令。 经过数周反复修改,最终版本比早期草案大幅缩水 — 信号很明确:美国选择了更轻的监管路线。对 AI 公司来说是利好,对关注 AI 安全的人来说是隐忧。具体条款值得细读。(157 likes | 112 RTs) 详情 →


🏗️ 值得一试

Holo 3.1 架构深度解析。 H Company 在 HuggingFace 上发布的技术博客,详细拆解了 Holo 3.1 如何实现快速本地电脑操控 — 不走云端的架构选择、推理优化、GUI 交互方案。想做本地 Agent 的,这是目前最好的开源参考实现。 详情 →

JetBrains Mellum2 — 能"思考"的 MoE 代码模型。 JetBrains 发布 Mellum2-12B-A2.5B-Thinking,一个混合专家(MoE)架构的代码模型,推理时只激活 2.5B 参数。翻译成人话:在消费级硬件上就能跑,还带思维链推理能力。适合集成到 IDE 做代码补全和理解。(125 likes | 799 downloads) 详情 →


🎓 模型小课堂

确定性编排 vs. 自主编排(Deterministic vs. Agentic Orchestration):想象你要指挥一个团队完成复杂项目。一种方式是写好详细的流程图 — 谁先做什么、做完交给谁、什么条件下循环重试 — 这就是确定性编排,控制流是固定的。另一种方式是告诉每个人目标,让他们自己决定下一步做什么 — 这是自主编排。Claude Code 新上线的工作流系统选择了前者:用固定的控制流(循环、管道、屏障)搭骨架,AI Agent 只在具体执行节点上发挥。为什么?因为在不可预测的智能外面套一层可预测的结构,比让 Agent 自己规划下一步更可靠、更可调试。


⚡ 快讯

  • Codex Mobile iOS 更新:支持 Face ID 锁定、SSH 连接 Windows、/side 分支对话。 链接
  • Anthropic 公开支持新 AI 行政令:承诺协助推动实施。(1,112 likes | 124 RTs) 链接
  • GitHub COO 谈 Agent 战略:Latent Space 播客深度访谈,GitHub 要成为 AI 编码 Agent 的操作系统。 链接
  • NVIDIA Cosmos 3 权重上线 HuggingFace:开源全模态世界模型,面向机器人和物理 AI。(667 likes | 105 RTs) 链接
  • Legora 的"水涨船高"论:在 Claude 上构建法律 AI,每次模型升级自动提升产品能力。(2,086 likes | 149 RTs) 链接

🎯 今日精选

17.3 倍的代码产出,只换来 30% 的发布增长 — 这才是 AI 编程的真相。 这项基于 GitHub 数据的研究揭示了一个尴尬的事实:AI 编码 Agent 确实在疯狂产出代码,但代码从来不是瓶颈。审查、测试、集成、发布 — 这些人工环节才是。17.3 倍的吞吐差距不是工具的局限,而是软件交付真正瓶颈的实证证明。那些把赌注押在"AI 生成更多代码 = 更快发布产品"的组织,本质上是在给一辆堵在路上的车换更大的发动机。真正该投资的不是代码生成速度,而是重新设计审查、测试和发布流程来匹配 AI 的产出节奏。 详情 →


下期见 ✌️