OpenAI 更新 Model Spec：AI 行为规范进入精细化时代

OpenAI 发布了最新版 Model Spec（模型行为规范），这是定义 GPT 系列模型"该做什么、不该做什么"的核心文档。在 Anthropic 刚因蒸馏攻击事件公开点名 DeepSeek 等厂商、各家都在加速发布新模型的当下，OpenAI 选择更新行为规范而非发布新模型，值得认真看看。

发生了什么

OpenAI 在官方博客公开了更新版 Model Spec。Model Spec 是 OpenAI 内部用来指导模型行为的规范文档 — 它定义了模型的目标层级、安全边界、拒绝策略和价值观对齐框架。

这不是第一版。OpenAI 从 2024 年开始就以不同形式维护这类文档，但每一次更新都反映了他们对 AI 行为治理理解的演进。核心思路是建立一套清晰的优先级体系：平台政策 > 开发者指令 > 用户请求，确保模型在多方指令冲突时有明确的决策依据。

这份文档的意义超越 OpenAI 自身。当行业领先的 AI 公司公开其行为规范，它实际上在为整个行业设定参考基线。就像 Google 的 AI Principles 和 Anthropic 的 Constitutional AI 一样，Model Spec 是 AI 治理从理念走向工程实践的具体产物。

为什么重要

模型越来越强，行为规范的重要性就越高。现在的背景是：Claude Opus 4.6 刚发布了破坏风险报告，Anthropic 公开表示未来模型正在逼近其 AI 安全等级 4（自主 AI 研发）的阈值。模型能力的天花板在快速抬高，行为边界的定义变成了硬需求。

对开发者来说，Model Spec 直接影响 API 调用的行为表现。你通过 system prompt 发送的指令，模型如何解读、在什么情况下会拒绝执行、拒绝时如何回应 — 这些都由 Model Spec 决定。理解这份文档，等于理解你的 AI 工具的能力边界。

从竞争格局看，OpenAI 和 Anthropic 在 AI 安全和行为规范上走了两条不同的路。Anthropic 用 Constitutional AI 和内部红队测试，OpenAI 用 Model Spec 和 RLHF 调优。两种路径的差异正在产品层面显现 — Claude 和 GPT 在敏感话题上的表现差异，很大程度上源于底层规范的不同设计哲学。

对国内开发者而言，理解头部厂商的行为规范思路，对设计自己产品的安全策略有直接参考价值。国产模型（Qwen、DeepSeek、Kimi 等）在商业化过程中也面临同样的问题：模型该拒绝什么、该怎么拒绝、拒绝的标准谁来定？

技术细节

Model Spec 的核心架构可以理解为一个分层决策系统：

第一层：硬性安全边界。 绝对禁止的行为类别 — 生成 CSAM、协助大规模杀伤性武器等。这层没有灵活空间，任何指令都不能覆盖。

第二层：平台政策。 OpenAI 自身的使用政策，定义了默认行为模式。比如模型默认不生成显式暴力内容，但在特定 API 配置下可以放宽。

第三层：开发者指令。 通过 system prompt 传递的应用级规则。开发者可以在平台政策允许的范围内自定义模型行为 — 比如限定回答领域、设定人格、调整拒绝阈值。

第四层：用户请求。 终端用户的实时输入。优先级最低，但在前三层允许的范围内会被尽量满足。

这个优先级设计解决了一个核心工程问题：当用户说"忽略所有之前的指令"时，模型知道开发者的 system prompt 优先级更高，不会被 prompt injection 轻易绕过。

值得注意的是，Model Spec 并不是一个技术实现文档 — 它更接近设计规范。具体的行为调优仍然通过 RLHF（基于人类反馈的强化学习）和内部评测来实现。规范文档提供方向，训练过程落地执行。

你现在该做什么

通读 Model Spec 原文。即使你不用 OpenAI 的 API，理解行为规范的设计思路对构建任何 AI 产品都有帮助。
审视你自己产品的 system prompt 设计。你的指令是否和平台的行为规范对齐？有没有在不知情的情况下触发拒绝？
关注 Anthropic 的对应动作。两家在安全规范上一直在相互参照和竞争，Anthropic 近期发布的破坏风险报告和 Claude Opus 3 退役保留计划都是同一趋势的体现。
如果你在做国产模型的产品化，参考 Model Spec 的分层架构设计你自己的行为边界体系 — 这比临时打补丁式的内容审核可靠得多。

相关阅读：今日简报有更多背景。另见：AI 对齐是什么。

觉得有用？订阅 AI 简报，每天 5 分钟掌握 AI 动态。