MCP 协议走向无状态：发布以来最大的架构变动

🧠 发布动态

MCP 协议走向无状态：发布以来最大的架构变动。

如果你在用 MCP，坐稳了 — 2026-07-28 版本候选直接干掉了握手和 session ID，任何请求可以打到任意服务器实例。这意味着水平扩展和负载均衡从"要自己处理"变成了"协议原生支持"。同时新增 MCP Apps、Tasks 等一等公民扩展，auth 安全加固，以及正式的废弃策略。你的 MCP 集成要迁移了，趁早看 RC 规范。(1,135 likes | 181 RTs) 详情 →

ChatGPT 语音模式能填表了。 拍张表格照片，对着手机说答案，拿回填好的 PDF。这不是"语音转文字然后复制粘贴" — 是图像理解 + 语音输入 + 文档生成的完整多模态工作流，彻底绕过键盘。下次填报销单试试。(3,088 likes | 191 RTs) 详情 →

SynthID 水印扩展 — 现在可以直接问 Gemini 内容是不是 AI 生成的。 Google DeepMind 把 SynthID 水印推给更多合作伙伴，并且加了个新功能：用户可以直接问 Gemini 某段内容是否 AI 生成。AI 内容溯源生态的成型速度比预期快。(266 likes | 37 RTs) 详情 →

Claude Code v2.1.149 终于让你看清 token 花在哪了。 /usage 命令现在按 skills、subagents、插件和单个 MCP server 拆分成本。终于不用猜"为什么这个 session 烧了 $15"了。另外修复了 v2.1.147 的 bash exit-code-127 回归问题，PowerShell 目录遍历也加固了。(73 likes | 4 RTs) 详情 →

🔧 开发者工具

Claude Compliance API 接入主流安全合规平台：IT 和安全团队现在可以用现有的合规工具链管理 Claude 使用情况 — DLP、审计日志、策略执行，用你已经在用的平台就行。这是很多企业部署被卡在合规审批环节的关键解锁。去看看集成列表里有没有你们在用的。详情 →

TypeScript SDK v0.98.0：流式推理现在能看到 thinking token 数量了：跟 Python SDK v0.104.0 对齐，streaming thinking-block delta 里新增预估 thinking token 计数。跑生产环境 Agent 循环的，这个数据对成本监控至关重要 — 你终于知道模型"想"了多久。详情 →

Python SDK v0.104.1 修复流式压缩的静默数据丢失 bug：encrypted_content 在 beta compaction accumulator 的流式传输中没有被正确传递 — 长时间运行的 Agent session 如果用了上下文压缩，可能会悄悄丢数据。没有报错，没有警告，数据就没了。用了 streaming + compaction 的立刻更新。详情 →

📝 技术实战

swyx 让 coding agent 跑了 16 小时，103 次 commit，把烂代码变成了生产级仓库。

他写了一个"vibecoded slop → production-ready repo"的 Agent 技能 — 同一个应用，完全不同的代码质量：端到端测试、可维护结构、并行化架构，全部自动完成。"把整个仓库重构一遍"现在是一个过夜操作。你那个最丑的 MVP，也许今晚就可以让 Agent 去翻新。(576 likes | 18 RTs) 详情 →

Boris Cherny：大多数人其实还没用过 coding agent。 早期采用者和其他人之间的差距在扩大而不是缩小。如果你团队里有人还在手写每一行代码，今天就把 Claude Code 分享给他们 — 这不是效率提升 10% 的事，是工作方式的根本转变。(1,701 likes | 103 RTs) 详情 →

🔬 研究前沿

GPT-5.2 的论文评审达到了 Nature 顶级审稿人水平 — 但有条件。

45 位科学家花了 469 小时评估 82 篇论文，结论是 GPT-5.2 的审稿意见质量与顶级期刊审稿人相当。但有明显短板：对实验设计的深度质疑和领域特定的创新性判断仍然不够。如果 AI 同行评审真的达到可用水平，科学出版的瓶颈就从"找不到审稿人"变成了"编辑的判断力" — 这是更高级的问题。(353 likes | 57 RTs) 详情 →

域伪装注入攻击：多 Agent 系统的新威胁。 新论文展示了一类攻击 — prompt injection 被伪装成符合当前领域语境的正常内容，在多 Agent 编排系统中绕过现有检测。当 Agent 编排走向主流，这才是最该关注的攻击面。在跑多 Agent pipeline 的，检查你的注入防御。(29 likes | 4 RTs) 详情 →

SMDD-Bench：AI Agent 能做小分子药物设计吗？（还不太行）。 502 个 Agent 任务，覆盖 5 个真实药物设计工作流，不是玩具 QA。第一个端到端测试 LLM Agent 药物化学能力的基准。结果：当前 frontier 模型和实际可用之间还有很大的差距。AI 改变制药还需要时间。(83 likes | 14 RTs) 详情 →

💡 行业洞察

微软据报砍掉内部 Claude Code 许可证 — 因为 token 账单扛不住了。

之前微软工程师大量自发转向 Claude Code 的新闻还热着，现在微软就因为 token 计费模式导致成本失控，据报已经撤回了内部许可证。这是 usage-based（按用量）vs. seat-based（按人头）定价在企业规模下的第一场真刀真枪的较量。再好的工具，如果财务部看到的是一个没有上限的计费器在几千个工程师那里同时跑，结局都一样。你的 Agent 工具成本审计做了吗？(17,840 likes | 3,551 RTs) 详情 →

Anthropic 分享 Project Glasswing 早期成果。 Anthropic 发布了其 AI 网络安全协作计划 Project Glasswing 的早期进展 — 分享了合作伙伴的具体发现，并展示前沿实验室打算如何处理共享威胁情报。Frontier AI 公司在安全问题上的透明度正在提高，这是好事。(3,850 likes | 273 RTs) 详情 →

Exa、Modal、TurboPuffer 同时跻身独角兽。 搜索（Exa）、无服务器 GPU（Modal）、向量数据库（TurboPuffer）— 三家 AI 基础设施公司同时达到 $1B 估值。模式越来越清晰：持久价值在基础设施层，不在应用层。在选 AI 技术栈的，关注这三家。详情 →

🏗️ 值得一试

Lucarne：手机审批 coding agent 操作。 零侵入的移动端桥接工具，通过 Telegram/微信同步、审批和恢复本地 coding agent session — 不需要改 hooks、MCP 或 SDK。解决了"人离开电脑但 Agent 在等审批"的问题。支持 Claude Code、Codex 和 Pi。(115 likes | 5 RTs) 详情 →

Models.dev：开源 AI 模型数据库。 结构化的、开源的，覆盖所有主流 AI 模型的规格、定价和能力参数。可以通过 API 查询，用于 Agent 系统的模型路由、成本估算和能力匹配。自己做模型选型逻辑的，这是现成的数据源。(84 likes | 11 RTs) 详情 →

🎓 模型小课堂

无状态协议 vs. 有状态协议（Stateless vs. Stateful Protocols）：想象你每次去银行柜台，柜员都记得你上次来办了什么 — 这是有状态协议，服务器要维护你的"会话"。MCP 之前就是这样：先握手，拿到 session ID，后续请求都绑在这个 session 上。问题是 — 服务器挂了，session 就没了；要扩容，session 迁移是噩梦。无状态协议反过来：每个请求自带所有信息，不依赖之前的交互。这跟 HTTP 从持久连接演化到无状态请求是一个道理。代价是每次请求要多传点数据，好处是负载均衡和水平扩展变得极其简单 — 随便哪台服务器接都行。MCP 这次大改，本质上是在走 HTTP 验证过的老路。

⚡ 快讯

Genspark CTO Kay Zhu：在这个市场，团队执行力比模型选择重要 — 解释了为什么 Genspark 押注 Claude 构建全能 AI 工作台。(1,278 likes | 79 RTs) 链接
Anthropic 财务团队自己怎么用 Claude：FP&A 工作流的内部实战案例，做财务的可以直接抄作业。链接
Anna's Archive 发布 llms.txt 宣言：主张 AI 系统应该透明公开自己能访问什么、不能访问什么 — 互联网正在围绕 LLM 消费模式重新组织。(708 likes | 399 RTs) 链接
FTC 罚款近 $100 万：Cox Media Group 等公司使用"主动监听"AI 技术监控环境音频做广告定向，FTC 画了条红线。链接

🎯 今日精选

微软砍掉 Claude Code 许可证 — 企业 AI 定价的第一个真实判决：微软工程师自发选择 Claude Code 而非 Copilot 的故事还没凉，成本问题就先把它杀死了。这不是工具好不好用的问题 — 每个用过的工程师都说好用。问题在于定价模型：Copilot 是固定人头费，预算可控；Claude Code 是 token 计费，用量没有上限。当几千个工程师同时用 Agent 做重构、写测试、跑代码审查，token 消耗是指数级的。财务部看到的不是"更高效的工程师"，而是一个失控的计费器。这是 usage-based vs. seat-based 定价在企业规模下的第一次正面碰撞，结论很残酷：再好的开发者工具，如果 CFO 看不到成本天花板，就活不过季度预算审查。对所有 AI 工具厂商来说，这是一个信号 — 企业要的不只是好用，还要可预测。(17,840 likes | 3,551 RTs) 详情 →

下期见 ✌️