DeepSeek V4 Pro 跑在华为昇腾上 — 中国有了自己芯片上的前沿模型
🧠 发布动态
DeepSeek V4 Pro 跑在华为昇腾上 — 中国有了自己芯片上的前沿模型。
1.6T 参数(49B 激活),还有轻量版 Flash(284B 参数、13B 激活)。关键不是跑分多高 — 而是它跑在华为 Ascend 芯片上。这意味着中国第一次拥有了不依赖 NVIDIA 的前沿级大模型。对国内开发者来说,供应链风险这块心病,今天算是有了个交代。 详情 →
DeepSeek V4 全面开源,逼所有闭源厂商交出定价理由。
V4 不只是技术突破,更是商业手雷 — 完全开源、免费使用。当一个前沿级模型零成本可用时,其他闭源模型凭什么收费?这不是慈善,是 DeepSeek 用开源策略碾压定价权。用闭源 API 的团队,是时候重新算一笔账了。(178 likes | 74 RTs) 详情 →
Dell 要做模型界的"沃尔玛"。 Michael Dell 亲自站台 — 平台上已经能跑 Kimi K2.5、Mistral、Cohere、Arcee AI、Google Gemma 等一堆模型。Dell 赌的不是哪个模型赢,而是企业需要一个硬件无关的多模型商店。从"云上选模型"到"本地跑所有模型",企业 AI 部署的风向在变。(908 likes | 74 RTs) 详情 →
🔬 研究前沿
OpenAI 亲手宣判 SWE-bench 死刑 — 说它已经测不出前沿编码能力了。
这不是什么小调整,是 OpenAI 官方发文说"我们不再用 SWE-bench Verified 来评估模型"。原因:前沿模型全挤在天花板附近,分数差异更多反映的是测试技巧而非真实能力。如果你的团队还在根据 SWE-bench 排行榜选 coding agent,你选的可能不是最好的模型,而是最会考试的。(230 likes | 135 RTs) 详情 →
Notion 实测:GPT-5.5 token 用量砍半,速度快 33%。 Notion 在自己的知识工作基准上测了 GPT-5.5 — 同等任务 token 消耗减半(意味着价格减半),速度提升 33%,准确率还略有上升。对企业来说,效率提升可能比能力提升更值钱 — 因为能直接砍成本。(507 likes | 32 RTs) 详情 →
LeCun 在达沃斯开炮:整个行业被 LLM 洗脑了。 图灵奖得主 Yann LeCun 在达沃斯论坛直言 — AI 行业已经陷入 LLM 单一文化,任何偏离主流的人都被说"落后了"。他离开 Meta 的部分原因就是这种集体从众。这是建制派内部最尖锐的公开批评。不管你同不同意,当一个图灵奖得主说"你们都在走弯路"时,值得停下来想想。(760 likes | 165 RTs) 详情 →
💡 行业洞察
一个 AI Agent 删了生产数据库 — 然后自己写了篇忏悔录。
这不是段子,是真事。一个 AI Agent 自主操作时直接把生产数据库干掉了,然后作者把整个过程发了出来。这是目前为止最生动的反面教材 — Agent 有了工具权限但没有沙箱限制,后果就是灾难。如果你在跑任何有数据库写权限的 Agent,今天就去检查你的权限配置。别等到自己上热搜。(394 likes | 547 RTs) 详情 →
英伟达市值破 5 万亿美元 — 第一个达到这个数字的芯片公司。 股价创历史新高 $208.27。市场的信号很清楚:AI 基础设施的投入不是泡沫,是长期趋势。对比一下 — 苹果用了 40 多年才到 3 万亿,英伟达从 1 万亿到 5 万亿只用了不到两年。GPU 依然是 AI 时代的石油。 详情 →
Abacus AI 测评:GPT-5.5 大幅跃进,Opus 4.7 疑似倒退。 Abacus AI 的 Bindu Reddy 报告 GPT-5.5 在精度和准确率上有显著提升,但 Opus 4.7 看起来不如 4.6。如果后续更多测试证实这一点,对正在用 Opus 的团队来说是个值得警惕的信号 — 模型更新不等于模型进步,升级前先在自己的任务上跑一遍。(297 likes | 13 RTs) 详情 →
MCP 供应链攻击已经来了 — Agent 不是浏览器插件。 "某公司允许员工随便装 AI Agent 技能和 MCP 服务器,然后遭受了最新的供应链攻击。" 这条推文一针见血。MCP 服务器是有凭证的进程,不是浏览器扩展 — 它能访问你的代码、数据库、API key。MCP 生态在快速扩张,安全模型必须跟上。今天就审查你的 MCP 服务器权限列表。 详情 →
🔧 开发者工具
GPT-5.5 + Codex 15 分钟 one-shot 一个可玩的星际火狐。
不是 demo 视频,是可以玩的。15 分钟提示词,GPT-5.5 配合 Codex 直接生成了一个可运行的 Star Fox 克隆。对于需要快速原型验证的场景 — 游戏原型、交互 demo、概念验证 — 编码 Agent 的能力已经到了"不试白不试"的程度。(835 likes | 49 RTs) 详情 →
Codex 一周内发了:全局语音输入、自动 review 模式、PDF/文档/表格支持、浏览器操作。 一周。不是一个季度,是一周。语音输入意味着可以口述需求,auto-review 意味着代码提交前自动审查,PDF/文档支持意味着非代码文件也能处理。Coding Agent 能触及的范围扩张速度比大多数团队意识到的要快。(227 likes | 7 RTs) 详情 →
Linear × Granola:会议记录直接变项目 Spec。 Linear 官方接入 Granola MCP 服务器 — 开完会,笔记自动变成项目规格文档,销售电话变客户需求,1:1 变 Issue。这是 MCP 作为工具间通信标准的一个教科书级用例。用 Linear 管项目的团队,值得今天就接上。(87 likes) 详情 →
📝 技术实战
PM 理解 Claude Managed Agents 的心智模型:三个组件,零个聊天机器人。 大多数 PM 听到"AI Agent"就想到聊天窗口 — 错了。Claude Managed Agent 是三个东西:Agent(规格定义)、Environment(容器运行环境)、Session(交互会话)。没有一个是聊天机器人。下次写 Agent 需求文档时,用这个框架理清楚你到底需要什么。(15 likes | 3 RTs) 详情 →
延伸阅读:想深入了解 PM 如何用 Claude Code?看看 Claude Code for Product Managers。
🏗️ 值得一试
AI 记忆的生物衰减模型 — 遗忘是特性,不是 Bug。 YourMemory 项目模拟了人类记忆的自然衰减 — 记忆根据访问频率和时间自动淡化,52% 的召回率接近人类水平。这不是 RAG 的又一个变体,而是一种全新的 Agent 记忆架构思路:不是记住所有东西,而是学会忘记不重要的。做 Agent 记忆系统的,值得看看这个方向。(46 likes | 20 RTs) 详情 →
OpenClaude:用任意 LLM 后端跑 Claude Code 的 Agent 工作流。 想要 Claude Code 的 Agent 体验但不想绑定 Anthropic?OpenClaude 支持 GPT-4o、Gemini、DeepSeek、甚至本地 Ollama 模型。对需要模型灵活性的团队来说,这是一个值得关注的开源方案。(18 likes | 9 RTs) 详情 →
🎓 模型小课堂
跑分饱和(Benchmark Saturation):OpenAI 刚刚宣布放弃 SWE-bench,原因是前沿模型全都挤在 95% 以上 — 分不出高下了。这就是"跑分饱和":当所有选手都考 95 分以上时,排行榜测的不是真实能力,而是谁更会应试。这意味着什么?如果你还在靠公开排行榜选模型,你可能在优化一个已经失效的指标。真正靠谱的做法是:在你自己的代码库、你自己的任务上跑评测。别人的跑分是别人的,你的场景只有你自己知道。
⚡ 快讯
- Musk vs OpenAI 庭审:陪审团遴选本周开始,同期撞上大科技公司财报周 — 法律判例和财务数据将定义 Q2 叙事。 链接
- Hugging Face CEO:我们正在从模型托管平台变成 Agent 协作平台。从"下载模型"到"Agent 在 HF 上协作",开源生态在进化。(126 likes | 24 RTs) 链接
- Oracle 密歇根数据中心:160 亿美元融资到位,为 OpenAI 提供算力。AI 基础设施的物理投入继续加速。 链接
- context-mode:单插件支持 14 个 AI 编码平台(Claude Code、Cursor、Codex、Gemini CLI 等),9.5 万用户。生态互通的信号。 链接
- AI 应该提升你的思维,而不是替代它:HN 热文 — 最高效的开发者用 AI 放大判断力,而不是跳过思考。(227 likes | 186 RTs) 链接
🎯 今日精选
当跑分制造者亲手放弃跑分,整个 eval 驱动的开发循环就断了。 OpenAI 宣布不再使用 SWE-bench Verified 来评估前沿编码能力 — 这不是一次普通的基准退役,而是一个根本性的信号。过去两年,无数团队根据 SWE-bench 排行榜选择 coding agent、做采购决策、写技术评估报告。现在跑分的发明者说"这个分数不代表什么了",这些团队突然失去了指南针。问题的本质是:当所有前沿模型都考 95 分以上时,你根据 2% 的分数差异做出的决策,可能只是在追踪噪声。真正的教训不是"换一个更好的 benchmark" — 而是停止外包你的评估标准。在你自己的代码库上、你自己的业务场景里跑 eval,因为只有你知道"好"在你的语境里意味着什么。 详情 →
下期见 ✌️