NewsletterBlogLearnCompareTopicsGlossary
English
TECHNIQUEINSIGHTTOOLRESEARCHLAUNCHBUILD

22 条资讯

OpenAI 上线 Lockdown Mode — 首个平台级 Prompt 注入防御

🧠 发布动态

OpenAI 上线 Lockdown Mode — 首个平台级 Prompt 注入防御。

企业部署 ChatGPT 最头疼的问题终于有了官方解法。Lockdown Mode 限制模型在会话中可以访问和外泄的数据范围 — 不是银弹,但对处理敏感数据的场景是实打实的多一层保险。企业用户现在就可以开启。 详情 →


💡 行业洞察

一周 25+ 开源模型 — LeCun 说这是史上最疯狂的一周。

Yann LeCun 亲自转发确认:本周开源/开放权重模型发布数量创下历史记录。这不是一两家在刷存在感,而是整个开源生态在系统性地追赶闭源前沿。对独立开发者来说,选择从未如此充裕。(2,590 likes | 381 RTs) 详情 →

Jane Street 现在用 Claude Code 做设计比 Figma 多。

Jane Street — 一家连交易系统每微秒都要优化的量化巨头 — 公开写文章说他们的设计流已经从 Figma 迁移到 Claude Code。这不是 vibe coder 的自嗨感言,这是一个对效率极度苛刻的团队做出的判断:文本驱动的 AI 设计比可视化工具更快。(246 likes | 224 RTs) 详情 →

Mythos 定价传闻 $400/M tokens — GPT 5.6 和 Gemini 3.5 才是实用前沿。 此前传的 $70/M 如果涨到 $400/M,Mythos 就不是通用模型而是特种武器了。对绝大多数开发者来说,GPT 5.6Gemini 3.5 才是日常干活的选择。模型成本规划该调整了。(579 likes) 详情 →

Mollick:实现变便宜了,独特想法才是稀缺资源。 @emollick 一针见血 — AI 让执行成本趋近于零,"有没有好点子"比"能不能做出来"重要十倍。你抽屉里那些"太难做"的想法,现在可能一个周末就能验证。(575 likes) 详情 →

WWDC 2026 预告:Siri 大改 + Apple Intelligence 终于落地。 苹果的 AI 战略是巨头里最慢的,这次 WWDC 是他们追赶的关键节点。重点关注端侧 AI 能力 — 如果 Siri 真的变聪明了,iOS 开发的玩法会变。 详情 →


📝 技术实战

多智能体轻量编排:让 Opus 规划,让便宜模型执行 — 成本降 10 倍。

核心思路简单粗暴:用 Opus 4.8 / GPT 5.5 做任务规划和拆解,用 Deepseek Flash、Gemma 等便宜模型做具体执行。实测声称在大型 Agent 循环中降本 10 倍,效果基本持平。这个"贵的动脑、便宜的动手"模式正在成为标准打法。(292 likes) 详情 →

OpenAI 发布数十个实战自动化工作流。 不是 demo 而是实际团队在用的自动化模式 — 具体场景、具体 prompt、具体编排方式。比看文档有用十倍,建议直接对着抄。(520 likes) 详情 →

Codex 的五个核心原语:Automations、Worktrees、Skills、Plugins、Sub-agents。 一篇把 Codex 能力拆解到底的文章。关键洞察:markdown + 线性状态追踪就够了 — 别把 Agent 编排想复杂了。把你现有的工作流往这五个原语上映射试试。(491 likes) 详情 →


🔬 研究前沿

Sakana AI 成立 RSI Lab — 首个专攻递归自我改进的实验室。 Sakana AI 的 RSI Lab(Recursive Self-Improvement,递归自我改进)开始正式运作,由 hardmaru 推荐引发关注。这是第一个公开以"让 AI 自己改进自己"为章程的研究机构,正在招人和发布研究方向。(184 likes) 详情 →

传闻:Anthropic 的 Mythos 在所有主流浏览器和操作系统中发现了零日漏洞。 据报道 Anthropic 内部的 Mythos 模型自主发现了跨平台零日漏洞,Anthropic 选择不发布模型以留出修补时间。如果属实,这是首个 AI 模型在规模化漏洞研究上达到前沿水平的确认案例。(36 likes) 详情 →


🔧 开发者工具

Pentest-AI:205 个安全工具 + 17 个专家 Agent,一个 MCP Server 搞定。 一个 MCP 服务器包装了 205 个安全工具,覆盖 OWASP Top 10,不需要额外 API key。装上之后你的 Claude Code 会话直接变渗透测试工作站。下次安全审计试试。(62 likes) 详情 →

Anthropic Python SDK v0.107.1 修复 Foundry 认证问题。 如果你在用 Anthropic 的托管部署,这个补丁修复了可能导致管道静默失败的 API key 认证问题。pip install --upgrade anthropic 更新。 详情 →

MicroPython 编译为 WASM — 浏览器沙箱里跑 Python。 Simon Willison 出品。不需要服务端往返,在浏览器里安全执行 Python 代码。对需要运行用户提交的 Python 的 AI 工具来说,这是一个干净的沙箱方案。 详情 →


🏗️ 值得一试

Unsloth 发布 Gemma 4 12B QAT 的 GGUF 版本 — 本地多模态快车道。 Google 发布 QAT 检查点几天内,Unsloth 就把它转成了 llama.cpp 和 Ollama 可用的格式。ollama run gemma4:12b 直接跑。本地多模态的门槛又低了一步。(120 likes | 85.8K downloads) 详情 →

Baoyu-Design:把 Claude Design 能力搬到本地,作为 Cursor/Claude Code 技能使用。 开源工具,让你在 IDE 里直接生成 UI 原型、线框图和 mockup — 输出自包含 HTML,不需要 claude.ai/design。Jane Street 用 Claude 做设计的思路,你也能复刻。(249 likes) 详情 →

Claude Agent + Obsidian:一个会自主学习的外脑。 通过 MCP 把 AI Agent 连到 Obsidian vault — Agent 拉取上下文、干活、把学到的东西写回笔记。"AI + markdown 文件 = 持久记忆"这个模式越来越被验证了。(171 likes) 详情 →


🎓 模型小课堂

量化感知训练(Quantization-Aware Training, QAT):通常我们训练完大模型后再做量化(比如从 16-bit 压缩到 4-bit)来省显存 — 但这样会丢精度。QAT 反过来:在训练阶段就告诉模型"你将来会被量化",让它提前适应低精度运算。结果就是 4-bit 量化后的质量损失远小于事后量化。Google 的 Gemma 4 QAT 检查点已经通过 Unsloth 的 GGUF 转换跑在本地了 — 这就是为什么开源模型洪流意义重大:QAT 让 12B 模型在笔记本上实用化了。


⚡ 快讯

  • Claude Desktop for Linux:GitHub issue 获 436 赞,社区在喊话 Anthropic 出 Linux 客户端。(436 likes | 247 RTs) 链接
  • Claude Code v2.1.168:一天两个补丁版本,活跃维护中。 链接
  • Anthropic TS SDK:修复 Bedrock middleware 执行顺序,自定义认证流不再静默失败。 链接
  • Ollama v0.30.7:原生支持 Zod JSON Schema,结构化输出更方便。 链接
  • VibeOS:一个 AI 原生操作系统概念登上 HN — AI 作为系统级原语而非应用层附加物。 链接

🎯 今日精选

Jane Street 用 Claude 替代 Figma — 设计和代码的边界正在消失:当一家连交易系统每微秒都要优化的公司,自愿把可视化设计工具换成文本驱动的 AI 时,这个信号值得所有人注意。这不是"AI 能画图了"这么简单 — 而是"设计"本身正在变成一种 prompting 技能。传统流程是:设计师出 mockup → 开发者翻译成代码 → 来回修改。Claude Code 流程是:直接用自然语言描述需求 → 生成可用组件 → 迭代。中间的 mockup 往返被彻底跳过了。能认识到这一点并把"设计"重新定义为"用语言精确描述界面"的团队,会比还在设计稿和代码之间来回跑的团队快 10 倍。 详情 →


下期见 ✌️