腾讯发布 1.8B 翻译模型，手机上就能跑

🧠 发布动态

腾讯发布 1.8B 翻译模型，手机上就能跑。

Hy-MT2-1.8B 支持 33 种语言互译，参数量小到可以部署在手机和边缘设备上。腾讯 Hy-MT2 系列现在从 1.8B 到 30B 全覆盖，按场景选模型而不是一刀切用大模型 — 这正是"专精打败规模"的活教材。如果你的产品有本地化翻译需求，拿这个跟你现在的翻译 pipeline 跑个对比。(276 likes | 564 downloads) 详情 →

🔧 开发者工具

Claude Code 2.1.149 一口气改了 26 处：新增 /usage 命令查看费用明细、PowerShell 安全加固、bash find 稳定性修复。对日常用 Claude Code 的开发者来说，/usage 终于能看清楚每次会话花了多少钱 — 之前只能凭感觉估。2.1.150 紧跟着发了一版基础设施更新，没有用户侧变化，但发布节奏说明 Anthropic 在持续打磨。(73 likes) 详情 →

📝 技术实战

Gemini Omni 不只是生成视频 — 它能原生编辑视频。

Ethan Mollick 演示了一个关键区别：Gemini Omni 是真正的多模态，不是"文本生成视频"的单向通道。他用 1896 年的火车进站影片做了 demo — Gemini 直接在原片上编辑，而不是重新生成。目前没有其他模型能做到这一点。如果你在做视频相关的产品，这个能力值得立刻去试。(1,457 likes | 118 RTs) 详情 →

把你反复写的 Agent 提示词变成可复用的 Skills：一个实用技巧 — 让 Codex 翻你的历史会话，把重复出现的 prompt 模式抽取成 Skills 和子 Agent。这种"元优化"每天都在帮你省时间，但大多数人还在手动重复同样的指令。(325 likes) 详情 →

实战派的模型选择指南：前端用 Opus 4.7，后端用 GPT 5.5 xHigh，视觉任务用 Flash 3.5 — 这不是跑分排名，而是一个从业者在 8 个场景中实际测出来的最优选择。跑分告诉你谁"更强"，但生产环境告诉你谁"更合适"。建议对照你现在的模型配置看看有没有可以换的。(278 likes) 详情 →

🔬 研究前沿

Project Glasswing 交出首份网络安全研究成果。

Anthropic 上个月启动的 AI 网络安全协作项目 Glasswing，现在有了实质性的技术发现。完整研究报告公布了协作式 AI 威胁情报的方法论细节 — 这不是"我们在做安全"的 PR 稿，而是可复现的研究。Hacker News 高互动说明开发者社区对方法论本身很感兴趣，不只是对标题。(267 likes | 179 RTs) 详情 →

NVIDIA Nemotron 用扩散模型一次性生成所有 token。

自回归模型（Autoregressive Model）一个字一个字地吐，Nemotron-Labs 的扩散语言模型（Diffusion Language Model）同时生成所有 token — 就像扩散模型在图像领域做的那样，但这次用在了文本上。如果这条路走通，大语言模型的速度瓶颈将从根本上被打破。目前还在研究阶段，但架构细节和跑分结果已经公开，值得做推理优化的团队深入看看。详情 →

Ganguli 提出统一物理学、神经科学和 AI 的框架：Surya Ganguli 的新文章试图把物理学、神经科学和 AI 放进同一个理论框架 — Yann LeCun 转发背书。这不是又一篇"AI 和大脑很像"的类比文，而是一个跨学科的数学框架。对做基础研究的人来说，这可能改变你思考智能的方式。(266 likes | 57 RTs) 详情 →

Antigravity 2.0 登顶首个 3D 建筑 LLM 跑分：谷歌的 Antigravity 2.0 在 OpenSCAD 建筑 3D 生成基准测试中拿下第一。这是一个小众但重要的能力缺口 — 文本和代码生成已经很成熟，但从文字到物理世界的 3D 设计还处于早期。339 个 HN 点赞说明建造者社区在关注。(339 likes | 131 RTs) 详情 →

💡 行业洞察

所有模型厂都变成了 Agent 厂 — 这改变了一切。

Latent Space 的最新分析一针见血：Anthropic、OpenAI、Google、阿里 — 这周每一家都在发 Agent 产品，不是模型。竞争的维度已经从"谁的跑分高"永久性地转移到了"谁的工作流更好用"。这不是趋势，这是既成事实。详情 →

Agent 的未解难题：需要转账的时候怎么办？：工具调用已经解决了，但让 Agent 处理支付、开发票、转账？没有任何干净的方案。279 个赞在这种垂直话题上算很高了 — 说明做 Agent 的人都撞过这堵墙。如果你在构建有金融操作的 Agent，这个问题现在就要想清楚。(279 likes | 57 RTs) 详情 →

专精打败规模 — 但大多数采购决策忽略了这一点：HuggingFace 上的一篇分析指出，针对特定企业任务微调的小模型往往优于通用大模型。当你的公司在"买 frontier API"还是"训专用模型"之间做选择时，这个论据值得带进决策会议。详情 →

DeepMind 扩大新加坡 AI 合作：科学发现、大流行病防备、医疗健康 — Google DeepMind 和新加坡的合作是国家级 AI 部署加安全护栏的具体案例。对在东南亚做 AI 的团队有参考价值。(217 likes | 30 RTs) 详情 →

🏗️ 值得一试

CodeWhale — 给 DeepSeek 模型用的终端编码 Agent：想要 Claude Code 的体验但用开源模型？CodeWhale 把类似的终端 Agent 工作流带到了 DeepSeek 模型上。33,000+ star 说明对本地优先 Agent 工作流的需求是真实且巨大的。想摆脱 API 依赖的开发者，值得一试。(33,856 likes | 2,902 RTs) 详情 →

Datasette Agent — 用对话探索数据库：Simon Willison 发布了 Datasette Agent alpha 版 — 一个能自主探索和查询数据库的对话式 AI 助手，支持插件扩展。如果你经常需要摸清一个不熟悉的 SQLite 数据库，这个工具能省掉大量手动写 SQL 的时间。(194 likes | 20 RTs) 详情 →

Kakuna — 专门加固代码的 Agent Skills：Swyx 推出的 Kakuna 只做一件事：让 Agent 自动审计和加固你的代码库。放它跑一天，回来拿到加固后的代码加一份自审报告。"维护工厂"概念 — 让 Agent 做那些重要但没人想做的活。(199 likes | 13 RTs) 详情 →

🎓 模型小课堂

扩散语言模型（Diffusion Language Model）：你用过的所有大语言模型 — GPT、Claude、Gemini — 都是"自回归"的，像打字一样一个 token 一个 token 地往外蹦。扩散语言模型换了个思路：先生成一堆噪声，然后逐步"去噪"成完整文本，所有 token 同时生成。这个方法在图像生成领域已经大获成功（Stable Diffusion、DALL-E 3 都是扩散模型），NVIDIA 的 Nemotron 是把它搬到文本领域的最新尝试。如果成功，最直接的好处是速度 — 不再受"一次只能生成一个 token"的限制，推理速度的天花板有可能被彻底打破。

⚡ 快讯

Glasswing 合作伙伴进展：Anthropic 分享了 Glasswing 项目首月的合作伙伴成果，前沿实验室之间的网络安全协作从公告阶段进入产出阶段。(7,471 likes | 555 RTs) 链接
Sam Altman 公开征集需求：OpenAI 该解决什么问题？11,440 个赞的帖子正在实时影响产品路线图。(11,440 likes | 667 RTs) 链接
Claude Code 12 个核心概念：CLAUDE.md、Rules、Skills、Hooks、MCP — 每天用 Claude Code 的人检查下你用了几个。(451 likes | 54 RTs) 链接
Claude Code v2.1.150：基础设施更新，无用户侧变化。链接
Google I/O 2026 Dialogues 回顾：AI、量子计算、机器人、创意 — 产品发布背后的战略思考。链接
AI 内存短缺正在重新定价消费电子：AI 基础设施建设的二阶效应 — 内存价格上涨推高了所有硬件成本。链接

🎯 今日精选

所有模型厂同时转型 Agent 厂 — 这不是巧合：这周的新闻摊开来看，一个模式清晰得不能再清晰 — Anthropic 推 Claude Code 和 Agent Teams，OpenAI 推 Codex，Google 推 Gemini Omni 的多模态编辑能力，连腾讯都在用小模型切垂直场景。每一家都在从"我的模型跑分最高"转向"我的 Agent 最能干活"。Latent Space 的分析说得对：这是整个行业承认纯粹的模型能力已经进入收益递减阶段，真正的价值层在编排（orchestration），不在参数量。对开发者来说，这意味着你的竞争力不再取决于你调用哪个模型的 API，而是你能用 Agent 构建什么样的工作流。选模型的时代结束了，选编排方案的时代开始了。详情 →

下期见 ✌️