随着Deepseek大模型(LLM,大语言模型)的开源,考虑数据安全与隐私。越来越多的企业、选择本地化独立部署这些大模型进行推理、构建RAG知识库、分析CT、分析病历、生成病历辅助等应用。本文从硬件角度列出部署Deepseek各版本所需硬件最低配置建议,若无特别说明,本文所推荐的硬件均只是同时进行一个会话推理所需要的最低配置(不考虑模拟并行,模拟并行是把上下文分割成N个并行的处理,达不到真正的并行的能力,同时还大大缩小处理上下文的能力,比如:DeepSeek可以处理128KB上下文,如果2模拟并行则每个只能处理64KB,依此类推),在实际应用和采购中,并行会话推理、高可用、高性能已经不是简单的硬件即可解决的,而是需要对多组推理硬件进行整合、集成,这会用到分布式计算软件、任务管理软件等AI Agent相关的内容。AI推理的本地化部署,显然不是只有硬件就行,硬件是最基本要求,AI的本地化部署还需要支持软件,通常需要使用企业级软件(比如:UpHub AI,其它一些开源框架,比如:llama.cpp、vLLM、ollama等),开源框架虽然免费,但其需要专业的AI工程师部署和运维,其成本是必然的,因此本地化部署AI推理(这里不讨论AI大模型训练)需要综合考虑:硬件成本、AI推理软件成本、业务系统集成成本、AI推理系统搭建运行与支持成本、AI推理系统使用培训成本等。
DeepSeek-R1-Distill-Qwen-1.5B (15亿参数)
CPU:4核心以上;
内存:16GB以上(DDR4以上);
硬件:M2 SSD高速固态硬盘,256GB以上,普通HDD和SSD就不用部署了,加载会非常慢;
GPU:可以纯CPU推理。已经在一台i7+64GB内存+M2SSD 2TB的PC电脑上测试(没有GPU),同时一个推理,每秒大概在20Tokens。
一套成本仅硬件部分应该在1万以上,实际部署中还需要多套进行并行计算、分布式管理软件等支撑。
DeepSeek-R1-Distill-Qwen-7B (70亿参数)
CPU:8核心以上;
内存:32GB以上(DDR4以上);
硬件:M2 SSD高速固态硬盘,256GB以上,普通HDD和SSD就不用部署了,加载会非常慢;
GPU:可以纯CPU推理,有条件可以使用8GB以上的GPU卡,比如:3050,3060等。
一套成本仅硬件部分应该在3万以上,实际部署中还需要多套进行并行计算、分布式管理软件等支撑。
已经在一台i7+64GB内存+M2SSD 2TB的PC电脑上测试(没有GPU),同时一个推理,每秒大概在5Tokens。
DeepSeek-R1-Distill-Llama-8B (80亿参数)
CPU:8核心以上;
内存:32GB以上(DDR4以上);
硬件:M2 SSD高速固态硬盘,256GB以上,普通HDD和SSD就不用部署了,加载会非常慢;
GPU:可以纯CPU推理,有条件可以使用8GB以上的GPU卡,比如:3050,3060等。
一套成本仅便件部分应该在4万以上,实际部署中还需要多套进行并行计算、分布式管理软件等支撑。
已经在一台i7+64GB内存+M2SSD 2TB的PC电脑上测试(没有GPU),同时一个推理,每秒大概在5Tokens。
DeepSeek-R1-Distill-Qwen-14B (140亿参数)
CPU:12核心以上;
内存:64GB以上(DDR4以上);
硬件:M2 SSD高速固态硬盘,512GB以上,普通HDD和SSD就不用部署了,加载会非常慢;
GPU:可以纯CPU推理,有条件可以使用16GB以上的GPU卡,比如:3090,4080,4090等。
一套成本仅硬件部分应该在10万以上,实际部署中还需要多套进行并行计算、分布式管理软件等支撑。
已经在一台i7+64GB内存+M2SSD 2TB的PC电脑上测试(没有GPU),同时一个推理,每秒大概在0.5Tokens。
DeepSeek-R1-Distill-Qwen-32B (320亿参数)
CPU:16核心以上;
内存:96GB以上(DDR4以上);
硬件:M2 SSD高速固态硬盘,512GB以上,普通HDD和SSD就不用部署了,加载会非常慢;
GPU:A10,A16。有条件可以A100。
一套成本仅硬件部分应该在30万以上,实际部署中还需要多套进行并行计算、分布式管理软件等支撑。
DeepSeek-R1-Distill-Llama-70B (700亿参数)
CPU:20核心以上;
内存:128GB以上(DDR4以上);
硬件:M2 SSD高速固态硬盘,1TB以上,普通HDD和SSD就不用部署了,加载会非常慢;
GPU:A100 x 2以上。H2等。
一套成本仅硬件部分应该在60万以上,实际部署中还需要多套进行并行计算、分布式管理软件等支撑。
DeepSeek-R1-671B (6710亿参数)
CPU:48核心以上;
内存:768GB以上(DDR5以上),1.5TB为推荐配置;
硬件:M2 SSD高速固态硬盘,2TB以上,普通HDD和SSD就不用部署了,加载会非常慢;
GPU:A100 x 8(8卡机),显存建议在1000GB以上;
机房:专用、水冷等。
一套成本仅硬件部分应该在300万以上,实际部署中还需要多套进行并行计算、分布式管理软件等支撑。