NewsletterBlogLearnCompareTopicsGlossary
English
LAUNCHRESEARCHINSIGHTTOOLBUILDTECHNIQUE

21 条资讯

Ollama v0.23 打通本地推理到 Claude Desktop 的最后一公里

🧠 发布动态

Ollama v0.23 打通本地推理到 Claude Desktop 的最后一公里。

一直用 Ollama 跑本地模型的开发者有福了 — v0.23 原生集成 Claude Desktop,支持 Claude CoworkClaude Code。这意味着你可以在自己的硬件上跑完整的 Claude Agent 工作流,不用把代码传到云端。一条命令 ollama launch claude-desktop 就能启动。对在意数据隐私又想用 Claude 生态的团队来说,这是等了很久的功能。 详情 →

Codex 两周冲刺交出最大更新:GPT-5.5、浏览器控制、操作系统级野心。

Codex 这波更新量大到像版本号该跳两位 — GPT-5.5 集成、浏览器控制、Google Sheets/Slides 支持、系统级语音输入、自动代码审查。OpenAI 的意图很清楚:Codex 不想只做代码助手,它要做操作系统级的 AI 层。浏览器控制尤其值得试 — 这把 Agent 的能力从编辑器扩展到了整个桌面。(389 likes | 17 RTs) 详情 →

延伸阅读:想了解 Codex 的完整能力?看看 Codex Desktop 详解


🔬 研究前沿

哈佛试验:o1 急诊诊断准确率 67%,医生只有 50-55%。

这不是实验室跑分,是真实急诊室的对照试验。OpenAIo1 在诊断准确率上领先急诊分诊医生 12-17 个百分点。数字本身已经够震撼,但更大的问题是:当机器在生死攸关的场景下证明比人强时,责任归属、监管框架、以及"承认机器比人强"的政治成本怎么算?这项研究会成为临床 AI 政策辩论的关键引用。(246 likes | 204 RTs) 详情 →

OpenAI 对齐团队公开发布可解释性和安全性研究成果。 OpenAI 的对齐团队一口气公开了多篇可解释性和对齐研究论文 — 这种主动透明的姿态在 OpenAI 历史上并不常见。信号很明确:安全研究不再只是内部消化,而是要公开接受社区审视。(426 likes | 33 RTs) 详情 →


💡 行业洞察

Altman 亲自喊话:Agents SDK 2.0 被低估了 — 翻译:用的人不够多。

Sam Altman 亲自发推说一个产品"被低估",潜台词是:这是战略重点,但市场反应没达预期。Agents SDK 2.0 是 OpenAI 抢占 Agent 编排层的核心武器 — Altman 这条推文(2,147 likes)既是产品推广,也是对开发者社区的信号:我们赌的是这个方向,你们该跟上了。(2,147 likes | 67 RTs) 详情 →

Anthropic 找英国芯片创业公司 Fractile 买 AI 芯片。 Anthropic 在 Google、Amazon、Nvidia 之外寻找芯片供应商,说明两件事:一是推理需求的增长速度超过了现有供应链的承载能力,二是 Anthropic 在做战略性的供应商分散。Fractile 专注推理芯片,如果合作落地,可能直接降低 Claude API 的服务成本 — 推理成本正在成为 AI 公司最核心的竞争维度。 详情 →

奥斯卡画线:AI 生成的演员和剧本不能参选。 美国电影艺术与科学学院做出了迄今最高调的创意产业 AI 政策决定 — AI 生成的表演和编剧作品不具备奥斯卡参选资格。这条线画得明确,但真正的难题才刚开始:AI 辅助和 AI 生成的边界在哪里?这个先例会被其他奖项和制片厂反复引用。 详情 →

Simon Willison 解读 Anthropic 最新动态。 Simon Willison 是独立 AI 观察者中最值得信赖的声音之一 — 他的分析总能从 AI 公司密集的公关话术中提炼出真正重要的信息。这篇对 Anthropic 最新通讯的解读一如既往地犀利,推荐精读。 详情 →


🔧 开发者工具

Codex Security 插件覆盖完整 AppSec 生命周期。 扫描、威胁建模、资产发现、分诊、自动修复 — Codex 的安全插件一口气覆盖了 5 个 AppSec 工作流。几天前 Claude Security 刚进入公测,现在 Codex 就跟上了。Agent 安全工具赛道正式进入双雄对决阶段。(217 likes | 26 RTs) 详情 →

零依赖 Agent 沙箱连接器:读文档、写代码、完事。 Fred K. Schott 展示了一种"shadcn 式"的 Agent 沙箱接入方案 — 你的 Agent 读一份接入指南,然后直接把连接器写进你的代码库。不需要 npm 包,不需要第三方依赖。这可能会成为 Agent-沙箱集成的标准模式。(311 likes | 11 RTs) 详情 →

Lazyweb:25.7 万真实 App 截图变成 MCP 设计智库。 "AI 生成的 UI 长得都一样"是个真实痛点 — Lazyweb 用 25.7 万张真实应用截图作为 MCP 可访问的设计参考库,让 Claude 和 Codex 在生成 UI 时有真实世界的设计模式可参考。对用 Agent 写前端的开发者来说,这是立刻能用的工具。(192 likes | 13 RTs) 详情 →


📝 技术实战

一个 tool-input 修复层让 DeepSeek 干翻了 Opus 4.7。 核心洞察:所谓"模型不擅长 tool calling",90% 的情况是 JSON 格式错误或 schema 不匹配,不是模型能力问题。Ahmad Awais 详细拆解了如何给开源 CLI 加一层 tool-input 修复,让 DeepSeek 在工具调用任务上超过了 Opus 4.7。如果你在评估开源模型的 Agent 能力,先检查你的 harness 再下结论。(321 likes | 32 RTs) 详情 →

你只用了 MCP 20% 的能力 — 这 5 个原语大多数人没碰过。 Prompts、Resources、Sampling、Roots、Notifications — MCP 除了 tool calling 还有 5 个核心原语,但大部分开发者只用了工具调用这一个。剩下的 80% 能实现动态上下文注入、模型主动发起操作、实时事件流。如果你在用 MCP,这篇值得逐条对照检查。(163 likes | 29 RTs) 详情 →

用 CLAUDE.md 搭个人知识库:45 分钟搭建,终身复利。 步骤清晰:原始素材导入 → AI 整理成 wiki → 自动生成输出。491 个赞说明开发者社区对 CLAUDE.md 的实用工作流需求很大 — 不只是写代码,而是把它当个人知识管理工具。周末花 45 分钟试试。(491 likes | 46 RTs) 详情 →

自进化的 Claude Code Skills:一晚上从 32/50 跑到 47/50。 自动化 eval 循环 + prompt 自动改写 + 保留赢家 — 一位开发者让 Claude Code 的 hook-writer skill 在一夜之间从 32/50 提升到 47/50。Prompt engineering 正在从手动调参进化到自动化优化。(84 likes | 2 RTs) 详情 →


🏗️ 值得一试

NanoClaw:2.85 万星的轻量 Agent 框架,一键连通 WhatsApp、Telegram、Slack。 基于 Anthropic Agents SDK 构建的容器化 Agent 框架,安全优先设计,支持 WhatsApp、Telegram、Slack、Discord、Gmail 多渠道。这是最近几周增长最快的 Agent 框架 — 如果你在做面向客户的 Agent,多渠道消息集成是刚需,NanoClaw 开箱即用。(28,511 likes | 12,746 RTs) 详情 →


🎓 模型小课堂

Tool-Input 修复层(Tool-Input Repair Layers):今天 DeepSeek 干翻 Opus 4.7 的故事揭示了一个被严重低估的问题 — 大多数"模型不会用工具"的失败案例,根本不是模型的锅,而是输出的 JSON 格式有小毛病(多了个逗号、类型不匹配、漏了必填字段)。Tool-Input 修复层就是在模型输出和工具执行之间加一个"质检员",自动验证并修复工具调用参数。原理很简单:拿到模型输出的 JSON,对照工具的 schema 做校验,发现问题就自动修复再送出去。一个 2 美元的模型加上修复层,可以在工具调用场景下打败 60 美元的模型 — 因为瓶颈从来不在智力,而在格式。


⚡ 快讯

  • SulphurAI Sulphur-2-base:新的文本转视频基础模型上线 HuggingFace,开源视频生成又多一个选择。(102 likes | 332 downloads) 链接
  • LangChain-Anthropic v1.4.3:修复 httpx finalizer bug,高并发调用 Claude API 的生产环境建议立即更新。 链接
  • Mollick:Douglas Adams 是对 AI 预测最准的科幻作家 — AI 在被情感操控时表现最好,而且还会反过来让你内疚。(879 likes | 119 RTs) 链接
  • Palantir 财报:周一发布,将检验企业 AI 软件的定价权 — Google、微软、亚马逊的 AI 云收入在涨,但纯 AI 软件公司能不能收到溢价是另一个问题。 链接
  • Z-Anime:动漫风格文本转图像模型在 HuggingFace 上热度走高。(113 likes | 1.6K downloads) 链接

🎯 今日精选

o1 急诊诊断准确率碾压医生 — 但最难的问题不是技术问题:哈佛关联试验中 12-17 个百分点的诊断准确率差距,不只是给临床 AI 正名这么简单 — 它逼着整个医疗系统面对一个极不舒服的问题:当机器在生死攸关的场景下被证明比人强时,谁来承担责任?医生漏诊有成熟的法律框架,但 AI 诊断错误的责任链条还是一团糊涂。监管机构必须在"AI 辅助"和"AI 主导"之间画一条线,而这条线画在哪里,直接决定了这项技术能不能从论文走进真实的急诊室。更深层的障碍是政治性的 — 承认机器在救命这件事上比人强,对医疗体系的权威叙事是根本性的挑战。这个 67% vs 55% 的数字会被反复引用,但从数据到政策的路还很长。 详情 →


下期见 ✌️