DeepSeek V4 Pro 跑在华为昇腾上 — 中国有了自己芯片上的前沿模型

🧠 发布动态

DeepSeek V4 Pro 跑在华为昇腾上 — 中国有了自己芯片上的前沿模型。

1.6T 参数（49B 激活），还有轻量版 Flash（284B 参数、13B 激活）。关键不是跑分多高 — 而是它跑在华为 Ascend 芯片上。这意味着中国第一次拥有了不依赖 NVIDIA 的前沿级大模型。对国内开发者来说，供应链风险这块心病，今天算是有了个交代。详情 →

DeepSeek V4 全面开源，逼所有闭源厂商交出定价理由。

V4 不只是技术突破，更是商业手雷 — 完全开源、免费使用。当一个前沿级模型零成本可用时，其他闭源模型凭什么收费？这不是慈善，是 DeepSeek 用开源策略碾压定价权。用闭源 API 的团队，是时候重新算一笔账了。(178 likes | 74 RTs) 详情 →

Dell 要做模型界的"沃尔玛"。 Michael Dell 亲自站台 — 平台上已经能跑 Kimi K2.5、Mistral、Cohere、Arcee AI、Google Gemma 等一堆模型。Dell 赌的不是哪个模型赢，而是企业需要一个硬件无关的多模型商店。从"云上选模型"到"本地跑所有模型"，企业 AI 部署的风向在变。(908 likes | 74 RTs) 详情 →

🔬 研究前沿

OpenAI 亲手宣判 SWE-bench 死刑 — 说它已经测不出前沿编码能力了。

这不是什么小调整，是 OpenAI 官方发文说"我们不再用 SWE-bench Verified 来评估模型"。原因：前沿模型全挤在天花板附近，分数差异更多反映的是测试技巧而非真实能力。如果你的团队还在根据 SWE-bench 排行榜选 coding agent，你选的可能不是最好的模型，而是最会考试的。(230 likes | 135 RTs) 详情 →

Notion 实测：GPT-5.5 token 用量砍半，速度快 33%。 Notion 在自己的知识工作基准上测了 GPT-5.5 — 同等任务 token 消耗减半（意味着价格减半），速度提升 33%，准确率还略有上升。对企业来说，效率提升可能比能力提升更值钱 — 因为能直接砍成本。(507 likes | 32 RTs) 详情 →

LeCun 在达沃斯开炮：整个行业被 LLM 洗脑了。 图灵奖得主 Yann LeCun 在达沃斯论坛直言 — AI 行业已经陷入 LLM 单一文化，任何偏离主流的人都被说"落后了"。他离开 Meta 的部分原因就是这种集体从众。这是建制派内部最尖锐的公开批评。不管你同不同意，当一个图灵奖得主说"你们都在走弯路"时，值得停下来想想。(760 likes | 165 RTs) 详情 →

💡 行业洞察

一个 AI Agent 删了生产数据库 — 然后自己写了篇忏悔录。

这不是段子，是真事。一个 AI Agent 自主操作时直接把生产数据库干掉了，然后作者把整个过程发了出来。这是目前为止最生动的反面教材 — Agent 有了工具权限但没有沙箱限制，后果就是灾难。如果你在跑任何有数据库写权限的 Agent，今天就去检查你的权限配置。别等到自己上热搜。(394 likes | 547 RTs) 详情 →

英伟达市值破 5 万亿美元 — 第一个达到这个数字的芯片公司。 股价创历史新高 $208.27。市场的信号很清楚：AI 基础设施的投入不是泡沫，是长期趋势。对比一下 — 苹果用了 40 多年才到 3 万亿，英伟达从 1 万亿到 5 万亿只用了不到两年。GPU 依然是 AI 时代的石油。详情 →

Abacus AI 测评：GPT-5.5 大幅跃进，Opus 4.7 疑似倒退。 Abacus AI 的 Bindu Reddy 报告 GPT-5.5 在精度和准确率上有显著提升，但 Opus 4.7 看起来不如 4.6。如果后续更多测试证实这一点，对正在用 Opus 的团队来说是个值得警惕的信号 — 模型更新不等于模型进步，升级前先在自己的任务上跑一遍。(297 likes | 13 RTs) 详情 →

MCP 供应链攻击已经来了 — Agent 不是浏览器插件。 "某公司允许员工随便装 AI Agent 技能和 MCP 服务器，然后遭受了最新的供应链攻击。" 这条推文一针见血。MCP 服务器是有凭证的进程，不是浏览器扩展 — 它能访问你的代码、数据库、API key。MCP 生态在快速扩张，安全模型必须跟上。今天就审查你的 MCP 服务器权限列表。详情 →

🔧 开发者工具

GPT-5.5 + Codex 15 分钟 one-shot 一个可玩的星际火狐。

不是 demo 视频，是可以玩的。15 分钟提示词，GPT-5.5 配合 Codex 直接生成了一个可运行的 Star Fox 克隆。对于需要快速原型验证的场景 — 游戏原型、交互 demo、概念验证 — 编码 Agent 的能力已经到了"不试白不试"的程度。(835 likes | 49 RTs) 详情 →

Codex 一周内发了：全局语音输入、自动 review 模式、PDF/文档/表格支持、浏览器操作。 一周。不是一个季度，是一周。语音输入意味着可以口述需求，auto-review 意味着代码提交前自动审查，PDF/文档支持意味着非代码文件也能处理。Coding Agent 能触及的范围扩张速度比大多数团队意识到的要快。(227 likes | 7 RTs) 详情 →

Linear × Granola：会议记录直接变项目 Spec。 Linear 官方接入 Granola MCP 服务器 — 开完会，笔记自动变成项目规格文档，销售电话变客户需求，1:1 变 Issue。这是 MCP 作为工具间通信标准的一个教科书级用例。用 Linear 管项目的团队，值得今天就接上。(87 likes) 详情 →

📝 技术实战

PM 理解 Claude Managed Agents 的心智模型：三个组件，零个聊天机器人。 大多数 PM 听到"AI Agent"就想到聊天窗口 — 错了。Claude Managed Agent 是三个东西：Agent（规格定义）、Environment（容器运行环境）、Session（交互会话）。没有一个是聊天机器人。下次写 Agent 需求文档时，用这个框架理清楚你到底需要什么。(15 likes | 3 RTs) 详情 →

延伸阅读：想深入了解 PM 如何用 Claude Code？看看 Claude Code for Product Managers。

🏗️ 值得一试

AI 记忆的生物衰减模型 — 遗忘是特性，不是 Bug。 YourMemory 项目模拟了人类记忆的自然衰减 — 记忆根据访问频率和时间自动淡化，52% 的召回率接近人类水平。这不是 RAG 的又一个变体，而是一种全新的 Agent 记忆架构思路：不是记住所有东西，而是学会忘记不重要的。做 Agent 记忆系统的，值得看看这个方向。(46 likes | 20 RTs) 详情 →

OpenClaude：用任意 LLM 后端跑 Claude Code 的 Agent 工作流。 想要 Claude Code 的 Agent 体验但不想绑定 Anthropic？OpenClaude 支持 GPT-4o、Gemini、DeepSeek、甚至本地 Ollama 模型。对需要模型灵活性的团队来说，这是一个值得关注的开源方案。(18 likes | 9 RTs) 详情 →

🎓 模型小课堂

跑分饱和（Benchmark Saturation）：OpenAI 刚刚宣布放弃 SWE-bench，原因是前沿模型全都挤在 95% 以上 — 分不出高下了。这就是"跑分饱和"：当所有选手都考 95 分以上时，排行榜测的不是真实能力，而是谁更会应试。这意味着什么？如果你还在靠公开排行榜选模型，你可能在优化一个已经失效的指标。真正靠谱的做法是：在你自己的代码库、你自己的任务上跑评测。别人的跑分是别人的，你的场景只有你自己知道。

⚡ 快讯

Musk vs OpenAI 庭审：陪审团遴选本周开始，同期撞上大科技公司财报周 — 法律判例和财务数据将定义 Q2 叙事。链接
Hugging Face CEO：我们正在从模型托管平台变成 Agent 协作平台。从"下载模型"到"Agent 在 HF 上协作"，开源生态在进化。(126 likes | 24 RTs) 链接
Oracle 密歇根数据中心：160 亿美元融资到位，为 OpenAI 提供算力。AI 基础设施的物理投入继续加速。链接
context-mode：单插件支持 14 个 AI 编码平台（Claude Code、Cursor、Codex、Gemini CLI 等），9.5 万用户。生态互通的信号。链接
AI 应该提升你的思维，而不是替代它：HN 热文 — 最高效的开发者用 AI 放大判断力，而不是跳过思考。(227 likes | 186 RTs) 链接

🎯 今日精选

当跑分制造者亲手放弃跑分，整个 eval 驱动的开发循环就断了。 OpenAI 宣布不再使用 SWE-bench Verified 来评估前沿编码能力 — 这不是一次普通的基准退役，而是一个根本性的信号。过去两年，无数团队根据 SWE-bench 排行榜选择 coding agent、做采购决策、写技术评估报告。现在跑分的发明者说"这个分数不代表什么了"，这些团队突然失去了指南针。问题的本质是：当所有前沿模型都考 95 分以上时，你根据 2% 的分数差异做出的决策，可能只是在追踪噪声。真正的教训不是"换一个更好的 benchmark" — 而是停止外包你的评估标准。在你自己的代码库上、你自己的业务场景里跑 eval，因为只有你知道"好"在你的语境里意味着什么。详情 →

下期见 ✌️