Ollama v0.23 打通本地推理到 Claude Desktop 的最后一公里

🧠 发布动态

Ollama v0.23 打通本地推理到 Claude Desktop 的最后一公里。

一直用 Ollama 跑本地模型的开发者有福了 — v0.23 原生集成 Claude Desktop，支持 Claude Cowork 和 Claude Code。这意味着你可以在自己的硬件上跑完整的 Claude Agent 工作流，不用把代码传到云端。一条命令 ollama launch claude-desktop 就能启动。对在意数据隐私又想用 Claude 生态的团队来说，这是等了很久的功能。详情 →

Codex 两周冲刺交出最大更新：GPT-5.5、浏览器控制、操作系统级野心。

Codex 这波更新量大到像版本号该跳两位 — GPT-5.5 集成、浏览器控制、Google Sheets/Slides 支持、系统级语音输入、自动代码审查。OpenAI 的意图很清楚：Codex 不想只做代码助手，它要做操作系统级的 AI 层。浏览器控制尤其值得试 — 这把 Agent 的能力从编辑器扩展到了整个桌面。(389 likes | 17 RTs) 详情 →

延伸阅读：想了解 Codex 的完整能力？看看 Codex Desktop 详解。

🔬 研究前沿

哈佛试验：o1 急诊诊断准确率 67%，医生只有 50-55%。

这不是实验室跑分，是真实急诊室的对照试验。OpenAI 的 o1 在诊断准确率上领先急诊分诊医生 12-17 个百分点。数字本身已经够震撼，但更大的问题是：当机器在生死攸关的场景下证明比人强时，责任归属、监管框架、以及"承认机器比人强"的政治成本怎么算？这项研究会成为临床 AI 政策辩论的关键引用。(246 likes | 204 RTs) 详情 →

OpenAI 对齐团队公开发布可解释性和安全性研究成果。 OpenAI 的对齐团队一口气公开了多篇可解释性和对齐研究论文 — 这种主动透明的姿态在 OpenAI 历史上并不常见。信号很明确：安全研究不再只是内部消化，而是要公开接受社区审视。(426 likes | 33 RTs) 详情 →

💡 行业洞察

Altman 亲自喊话：Agents SDK 2.0 被低估了 — 翻译：用的人不够多。

当 Sam Altman 亲自发推说一个产品"被低估"，潜台词是：这是战略重点，但市场反应没达预期。Agents SDK 2.0 是 OpenAI 抢占 Agent 编排层的核心武器 — Altman 这条推文（2,147 likes）既是产品推广，也是对开发者社区的信号：我们赌的是这个方向，你们该跟上了。(2,147 likes | 67 RTs) 详情 →

Anthropic 找英国芯片创业公司 Fractile 买 AI 芯片。 Anthropic 在 Google、Amazon、Nvidia 之外寻找芯片供应商，说明两件事：一是推理需求的增长速度超过了现有供应链的承载能力，二是 Anthropic 在做战略性的供应商分散。Fractile 专注推理芯片，如果合作落地，可能直接降低 Claude API 的服务成本 — 推理成本正在成为 AI 公司最核心的竞争维度。详情 →

奥斯卡画线：AI 生成的演员和剧本不能参选。 美国电影艺术与科学学院做出了迄今最高调的创意产业 AI 政策决定 — AI 生成的表演和编剧作品不具备奥斯卡参选资格。这条线画得明确，但真正的难题才刚开始：AI 辅助和 AI 生成的边界在哪里？这个先例会被其他奖项和制片厂反复引用。详情 →

Simon Willison 解读 Anthropic 最新动态。 Simon Willison 是独立 AI 观察者中最值得信赖的声音之一 — 他的分析总能从 AI 公司密集的公关话术中提炼出真正重要的信息。这篇对 Anthropic 最新通讯的解读一如既往地犀利，推荐精读。详情 →

🔧 开发者工具

Codex Security 插件覆盖完整 AppSec 生命周期。 扫描、威胁建模、资产发现、分诊、自动修复 — Codex 的安全插件一口气覆盖了 5 个 AppSec 工作流。几天前 Claude Security 刚进入公测，现在 Codex 就跟上了。Agent 安全工具赛道正式进入双雄对决阶段。(217 likes | 26 RTs) 详情 →

零依赖 Agent 沙箱连接器：读文档、写代码、完事。 Fred K. Schott 展示了一种"shadcn 式"的 Agent 沙箱接入方案 — 你的 Agent 读一份接入指南，然后直接把连接器写进你的代码库。不需要 npm 包，不需要第三方依赖。这可能会成为 Agent-沙箱集成的标准模式。(311 likes | 11 RTs) 详情 →

Lazyweb：25.7 万真实 App 截图变成 MCP 设计智库。 "AI 生成的 UI 长得都一样"是个真实痛点 — Lazyweb 用 25.7 万张真实应用截图作为 MCP 可访问的设计参考库，让 Claude 和 Codex 在生成 UI 时有真实世界的设计模式可参考。对用 Agent 写前端的开发者来说，这是立刻能用的工具。(192 likes | 13 RTs) 详情 →

📝 技术实战

一个 tool-input 修复层让 DeepSeek 干翻了 Opus 4.7。 核心洞察：所谓"模型不擅长 tool calling"，90% 的情况是 JSON 格式错误或 schema 不匹配，不是模型能力问题。Ahmad Awais 详细拆解了如何给开源 CLI 加一层 tool-input 修复，让 DeepSeek 在工具调用任务上超过了 Opus 4.7。如果你在评估开源模型的 Agent 能力，先检查你的 harness 再下结论。(321 likes | 32 RTs) 详情 →

你只用了 MCP 20% 的能力 — 这 5 个原语大多数人没碰过。 Prompts、Resources、Sampling、Roots、Notifications — MCP 除了 tool calling 还有 5 个核心原语，但大部分开发者只用了工具调用这一个。剩下的 80% 能实现动态上下文注入、模型主动发起操作、实时事件流。如果你在用 MCP，这篇值得逐条对照检查。(163 likes | 29 RTs) 详情 →

用 CLAUDE.md 搭个人知识库：45 分钟搭建，终身复利。 步骤清晰：原始素材导入 → AI 整理成 wiki → 自动生成输出。491 个赞说明开发者社区对 CLAUDE.md 的实用工作流需求很大 — 不只是写代码，而是把它当个人知识管理工具。周末花 45 分钟试试。(491 likes | 46 RTs) 详情 →

自进化的 Claude Code Skills：一晚上从 32/50 跑到 47/50。 自动化 eval 循环 + prompt 自动改写 + 保留赢家 — 一位开发者让 Claude Code 的 hook-writer skill 在一夜之间从 32/50 提升到 47/50。Prompt engineering 正在从手动调参进化到自动化优化。(84 likes | 2 RTs) 详情 →

🏗️ 值得一试

NanoClaw：2.85 万星的轻量 Agent 框架，一键连通 WhatsApp、Telegram、Slack。 基于 Anthropic Agents SDK 构建的容器化 Agent 框架，安全优先设计，支持 WhatsApp、Telegram、Slack、Discord、Gmail 多渠道。这是最近几周增长最快的 Agent 框架 — 如果你在做面向客户的 Agent，多渠道消息集成是刚需，NanoClaw 开箱即用。(28,511 likes | 12,746 RTs) 详情 →

🎓 模型小课堂

Tool-Input 修复层（Tool-Input Repair Layers）：今天 DeepSeek 干翻 Opus 4.7 的故事揭示了一个被严重低估的问题 — 大多数"模型不会用工具"的失败案例，根本不是模型的锅，而是输出的 JSON 格式有小毛病（多了个逗号、类型不匹配、漏了必填字段）。Tool-Input 修复层就是在模型输出和工具执行之间加一个"质检员"，自动验证并修复工具调用参数。原理很简单：拿到模型输出的 JSON，对照工具的 schema 做校验，发现问题就自动修复再送出去。一个 2 美元的模型加上修复层，可以在工具调用场景下打败 60 美元的模型 — 因为瓶颈从来不在智力，而在格式。

⚡ 快讯

SulphurAI Sulphur-2-base：新的文本转视频基础模型上线 HuggingFace，开源视频生成又多一个选择。(102 likes | 332 downloads) 链接
LangChain-Anthropic v1.4.3：修复 httpx finalizer bug，高并发调用 Claude API 的生产环境建议立即更新。链接
Mollick：Douglas Adams 是对 AI 预测最准的科幻作家 — AI 在被情感操控时表现最好，而且还会反过来让你内疚。(879 likes | 119 RTs) 链接
Palantir 财报：周一发布，将检验企业 AI 软件的定价权 — Google、微软、亚马逊的 AI 云收入在涨，但纯 AI 软件公司能不能收到溢价是另一个问题。链接
Z-Anime：动漫风格文本转图像模型在 HuggingFace 上热度走高。(113 likes | 1.6K downloads) 链接

🎯 今日精选

o1 急诊诊断准确率碾压医生 — 但最难的问题不是技术问题：哈佛关联试验中 12-17 个百分点的诊断准确率差距，不只是给临床 AI 正名这么简单 — 它逼着整个医疗系统面对一个极不舒服的问题：当机器在生死攸关的场景下被证明比人强时，谁来承担责任？医生漏诊有成熟的法律框架，但 AI 诊断错误的责任链条还是一团糊涂。监管机构必须在"AI 辅助"和"AI 主导"之间画一条线，而这条线画在哪里，直接决定了这项技术能不能从论文走进真实的急诊室。更深层的障碍是政治性的 — 承认机器在救命这件事上比人强，对医疗体系的权威叙事是根本性的挑战。这个 67% vs 55% 的数字会被反复引用，但从数据到政策的路还很长。详情 →

下期见 ✌️