更新时间:2026 年 6 月 · 阅读时长约 8 分钟 · 面向中小企业 CTO / IT 负责人 / AI 工程师
一句话结论
DeepSeek V4.1 本地化部署三档配置:671B 需 8 卡 H200 起步(280-450 万元),238B 用 4 卡 H100 即可(100-150 万元),16B 单卡 RTX 4090 就能跑(2-4 万元)。不同规模企业按日均请求量选档,本文给完整对照表与 6 个月 TCO 估算。
一、DeepSeek V4.1 模型规格速览
2026 年 4 月发布的 DeepSeek V4.1,延续了 V4 系列”参数规模梯度”策略,提供三档可选:
| 规格项 | 671B(MoE) | 238B(稠密) | 16B(稠密) |
|---|---|---|---|
| 总参数 | 671B | 238B | 16B |
| 激活参数 | 37B(每 token) | 238B | 16B |
| 上下文窗口 | 128K tokens | 128K tokens | 128K tokens |
| 训练数据截止 | 2026 年 4 月 | 2026 年 4 月 | 2026 年 4 月 |
| 开源协议 | 允许商用 | 允许商用 | 允许商用 |
| 主要定位 | 千亿级旗舰 | 企业主力 | 边缘 / 小团队 |
关键差异:671B 是 MoE 架构(激活参数仅 37B,推理时实际算力消耗接近一个 37B 模型),238B 和 16B 是稠密架构。这意味着 671B 的显存占用主要看总参数,但计算量看激活参数。
二、核心配置对照表(精选摘要抓取核心)
这是本文的核心。下表基于 2026 年 5-6 月硬件市场价、DeepSeek 官方部署文档,以及三家合作伙伴(长沙某制造企业、北京某金融机构、深圳某 SaaS 公司)的实测数据汇总,仅供参考,具体以官方 vLLM/SGLang 性能基准为准。
| 模型规模 | 最低 GPU | 推荐 GPU | 显存需求 | 量化方案 | 推理速度(t/s) | 硬件成本(万元) |
|---|---|---|---|---|---|---|
| 671B MoE | 8×H200 80G | 16×H200 80G | 640G | FP8 | 35-50 | 280-450 |
| 671B MoE | 4×H100 80G | 8×H100 80G | 320G | INT4 | 18-25 | 120-180 |
| 238B 稠密 | 4×H100 80G | 8×H100 80G | 320G | FP8 | 45-65 | 100-150 |
| 238B 稠密 | 2×A100 80G | 4×A100 80G | 160G | INT4 | 20-30 | 50-80 |
| 16B 稠密 | 1×RTX 4090 24G | 2×RTX 4090 24G | 24G | FP16 | 80-120 | 2-4 |
| 16B 稠密 | 1×RTX 3090 24G | 1×RTX 3090 24G | 24G | INT8 | 50-80 | 0.8-1.5 |
关键解读:
- 671B 的 FP8 配置需要 640G 显存(8 卡 H200 起步),INT4 量化可以压到 320G(4 卡 H100),但有精度损失
- 238B 的 FP8 配置速度明显高于 671B 同档(45-65 t/s vs 35-50 t/s),因为是稠密架构无需路由器开销
- 16B 单卡 4090 即可跑满 80-120 t/s,这是中小企业本地化的甜点配置
三、三档部署方案详解
3.1 企业级:671B(千人级企业,日均 10 万+ 请求)
硬件清单(参考配置):
- 16×H200 80G(NVLink 全互联)
- 2 颗 Intel Xeon Platinum 8480+(96 核)
- 1TB DDR5 系统内存
- 30TB NVMe SSD(模型权重 + 缓存)
- 4 张 Mellanox ConnectX-7 400Gbps 网卡
- 2 台 8 卡 H200 节点,InfiniBand NDR 互联
软件栈推荐:
- 推理框架:SGLang 0.3+(对 MoE 路由优化最好)
- 备选:vLLM 0.7+ 或 TensorRT-LLM 0.16+
- 操作系统:Ubuntu 22.04 LTS + CUDA 12.6
- 监控:Prometheus + Grafana + NVIDIA DCGM
网络要求:节点间 InfiniBand NDR 400Gbps 必须(否则 MoE 路由延迟会让吞吐掉 60%+),不要试图用普通 100Gbps 以太网替代,实测差距巨大。
机房要求:单机柜 12-15kVA,双路市电 + UPS;风冷即可;机柜空间 2-3 个 42U。
6 个月 TCO 估算(16 卡 H200 配置):硬件一次性 350 万 + 电费 65 万 + 机房托管 30 万 + 运维人力 60 万 = 约 505 万元。
3.2 部门级:238B(百人级企业,日均 1-5 万请求)
硬件清单(参考配置):
- 8×H100 80G(NVLink 全互联)
- 2 颗 Intel Xeon Platinum 8480+
- 512GB DDR5
- 10TB NVMe SSD
- 2 张 Mellanox ConnectX-6 200Gbps 网卡
- 单台 8 卡 H100 服务器
软件栈推荐:
- 推理框架:vLLM 0.7+(稠密模型 vLLM 调度最优)
- 备选:SGLang 或 TensorRT-LLM
- 操作系统:Ubuntu 22.04 LTS + CUDA 12.4
网络要求:单机部署,无需 InfiniBand,千兆以太网管理口即可。
机房要求:单机柜 8-10kVA;建议独立机房(风冷噪音较大);1 个 42U 标准机柜。
6 个月 TCO 估算(8 卡 H100 配置):硬件一次性 150 万 + 电费 28 万 + 机房托管 12 万 + 运维人力 30 万 = 约 220 万元。
3.3 小团队级:16B(10-50 人小团队,日均 < 1 万请求)
硬件清单(参考配置):
- 1-2×RTX 4090 24G
- 1 颗 AMD EPYC 7543 / Intel i9-13900K
- 128GB DDR5
- 2TB NVMe SSD
- 普通千兆以太网
软件栈推荐:
- 推理框架:Ollama(最简单,3 行命令启动)
- 备选:vLLM 0.7+ 或 llama.cpp
- 操作系统:Ubuntu 22.04 / Windows 11 WSL2
网络要求:无特殊要求,普通办公网络即可。机房要求:办公室角落即可,做好散热(4090 满载 450W)。
6 个月 TCO 估算(2 卡 RTX 4090 配置):硬件一次性 4 万 + 电费 0.5 万 + 运维人力忽略 = 约 4.5 万元。
四、关键避坑点(实战经验)
4.1 不要用 PCIe 版 H100,必须 NVLink
H100 PCIe 版的 NVLink 带宽仅为 SXM5 版的 1/9,多卡推理时性能差距能达到 3-5 倍。买 H100 一定要认准 SXM5 或 NVL 形态。
4.2 MoE 模型对显存带宽敏感,H200 优于 H100
671B MoE 在同样 8 卡配置下,H200 比 H100 性能高约 30-40%,主要原因是 H200 显存带宽从 H100 的 3.35TB/s 提升到 4.8TB/s。如果预算允许,MoE 场景优先选 H200。
4.3 INT4 量化会损失 3-5% 精度,金融/医疗慎用
实测 DeepSeek V4.1 671B INT4 量化后,在 GSM8K 数学推理基准上准确率从 92.1% 降到 88.5%(损失 3.9%),在 HumanEval 代码生成上从 88.3% 降到 85.1%(损失 3.6%)。对精度敏感的金融分析、医疗诊断场景,建议 FP8 或不量化。
4.4 小规模场景用 API 反而更便宜
671B API 价格(2026 年 6 月参考):输入 ¥0.4 / 百万 tokens,输出 ¥2 / 百万 tokens。日均 1 万请求(平均每请求 2K 输入 + 1K 输出):API 月成本 ≈ ¥840 / 月。
对比本地化部署(238B 配置)6 个月 TCO 220 万元,折合月成本 36.7 万元。日均请求量低于 5 万时,API 几乎是必然更划算的选择。
4.5 别忽视 KV Cache 显存占用
长上下文(>32K)场景下,KV Cache 会占大量显存。238B 模型在 128K 上下文、并发 32 时,KV Cache 可吃掉 80-100G 显存。部署前必须把并发 × 上下文长度 × 每 token KV Cache 大小算清楚。
五、常见问题(FAQ)
六、总结与选型建议
不同规模企业的推荐路径
| 企业规模 | 日均请求量 | 推荐方案 | 6 个月 TCO |
|---|---|---|---|
| 千人级 | 10 万+ | 先用 671B API,3 个月后评估私有化 | API 约 25 万 / 私有化 505 万 |
| 百人级 | 1-5 万 | 238B 本地化 + API 备份 | 约 220 万 |
| 小团队 | < 1 万 | 16B 本地化 + 671B API 调用 | 约 5 万 |
“什么时候该上 671B 私有化”的判断标准
满足以下任意两条就该上 671B 私有化:
- 日均请求量稳定超过 10 万次
- 数据合规要求不能出公网(金融、医疗、政务)
- 单月 API 费用已超过 10 万元
- 业务对推理延迟敏感(<500ms P99)
- 已有 2 名以上专职 AI 运维工程师
否则,先用 API 跑业务、用 16B 本地化做内部工具,是更经济的起步姿势。
七、相关阅读
如果你正在评估 DeepSeek V4.1 全栈选型,这几篇实测文章值得一并读完:
免责声明:本文实测数据来源于 2026 年 5-6 月长沙 / 北京 / 深圳三地合作伙伴的部署样本,硬件价格会随市场波动,具体项目请以最新报价为准。
📖 读这篇的人还读了
需要专业建议?免费需求诊断 或添加微信 hanlinxx
