本地部署deepseek 70B需要什么硬件配置和有哪些成本(deepseek-r1 70B)?要让大模型真正用起来需要什么?

Deepseek 70B,是通过与llama蒸溜训练而成。其性能、准确性相对较高,这是很多企业、医院、事业单位本地部署大模型平衡成本与效果的选择之一。Deepseek 70B成为很多企业、医院和事业单位的选择,相比满血版671B其体积小了很多。要了解部署70B需要什么硬件资源,首页得从Deepseek 70B大模型的各个版本、各个指标说起。

 

【UpHub AI已经正式推出,为不同的AI大模型推理场景提供多个版本可选,欢迎了解,个人免费体验版(纯CPU推理,可在普通PC电脑上部署Deepseek 1.5B,7B,8B等参数少于100亿的大模型),可免费下载】

 

一、Deepseek 70B有哪些版本?

 

(1) Deepseek 70B 原始版本。名称叫:DeepSeek-R1-Distill-Llama-70B,模型参数为:700亿参数。文件大小为:141GB。

(2) Deepseek 70B Q3_K_L量化版,大小为:38GB。

(3) Deepseek 70B Q4_K_M量化版,大小为:43GB。

(4) Deepseek 70B Q6_K量化版,大小为:58GB。

(5) Deepseek 70B Q8_0量化版,大小为:75GB。

 

二、选择Deepseek70B的什么版本?

 

这取决于业务场景,成本预算,精确度要求。比如硬件资源充足,可以选择原始版。否则选择量化版,各版本所需硬件成本从大到小依次为:

 

Deepseek 70B原始版  >  Q8量化版  > Q6量化版 > Q4量化版 > Q3量化版。

作为平衡性能与成本,可以选择Q4版。

 

三、Deepseek需要什么硬件配置?

 

大模型的运行主要硬件是CPU、GPU显存、物理内存。

内存和显存计算比较容易,首先大模型要运行,得全部加载到内存中,所以比如要运行原始版,内存必须大于141GB,实际上模型要真正运行起来,需要预留20%和系统本身需要的内存,一般是按模型的大小乘2,即280GB以上内存是比较合理的选择。但原始版显然很难在CPU上运行,这个内存就全部需要由GPU来提供,因此这就至少于要两个显存为141GB的显卡,比如两张英伟达A100,141GB显存版。为了让CPU不要拖累推理和并行处理,70BCPU至少20核心以上。这样算下来,本地部署Deepseek所需硬件至少为:256GB以上内存、两张A100(141GB)、20核以上CPU。配置这样的硬件一台成本应该在60万左右。这只是一套推理系统的硬件,如果要考虑并行(多人同时推理),还需要额外的软件、硬件支持,同时还需要配置运维人员,以及硬件快速老化带来的维修和换新成本。

 

对于量化版本(Qxxxx),这些版本简单来说就是把本身是float的模型参数按一定的空间按比例折算成int后存放的版本,想象一下科学家为什么想方设法计算PI的几百万位?就是小数点后位数越多,精确度越高。大模型在量化后,把小数后N位省去,映射到一定范围的int空间,这样必须损失精度,但是对于一般的对话应用场景,这已经完全够用,最重要的是量化版可以在低配置的服务器(甚至不要GPU)上运行。这里以Q4为例大概估算一下运行条件。

正如前面所说,要运行大模型,加载到内存是必须的。比如Deepseek 70B Q4版是43GB,所以要运行它,内存就不得少于43GB,为了能进行基本运行,64GB是最低配置了。要使用Deepseek 70B进行推理,CPU在20核心以上是最低要求。这样的话,Deepseek 70B在一般的至强处理器,128GB的内存上即可运行,甚至可以不用GPU,但这个推理速度可能慢得惊人,我们在一台普通的PC(4核,8线程),64GB的内存上运行70B,平均推理速度为:0.01 tokens/s。所以Deepseek 70B Q4量化版建议使用4090显卡x2+上双CPU至强系列处理器比较合理。这样一套硬件成本在10万左右。

 

四、Deepseek 70B 推理需要什么软件?

 

有了硬件,是不是就马上能运行大模型为业务提升效率了呢? 显然不是。大模型除了硬件的要求外,需要配套的软件才能真正运行起来,要用到业务中那是需要定制开发和魔改你的业务系统才行,这就不在本文中讨论了。本文以能运行起来,不谈业务。

 

原始版运行:所需要软件开源vLLM(需要专业技术人员部署、实施、维护)、UpHub AI、其它企业级大模型软件。

量化版运行:llama.cpp、ollama、UpHub AI。

知识库:RAG Flow、UpHub AI。

 

大模型运行软件很多,很杂,基本都需要有专业的技术人员进行部署、实施和维护。否则本地部署的硬件是浪费。

通常企业级的软件(纯推理、多人使用等),每年成本在5万到20万之间。

 

五、 Deepseek 70B 部署了就可以用自己的知识库了?

 

本地部署大模型,主要为隐私和数据安全考虑。但实际上在部署后要用上知识库,还需要额外的软件支撑。比如RAGFlow、UpHub AI等。这会增加AI大模型软软件的部署和实施难度,会增加额外的软件成本。

有关RAG的知识库的初步了解可以点击这篇文章了解

 

六、Deepseek 70B 部署后就能与业务对接了?

 

通常大模型部署后,的确可以提供API、本地对话或多模态模型推理。但与实际业务要集成,还要很长的路要走。首先你的业务系统得具备调用AI大模型的API的能力,同时你的业务流得具有要用到大模型的能力和流程,这显然需要对企业的已有或即将有的业务系统进行AI化升级和定制,这个成本将是企业实施大模型最大的成本。所以现阶段,大部分单位本地部署大模型只是单独运行,不会与业务系统进行集成。

 

七、Deepseek 70B 本地部署后成本总结

 

(1)硬件成本。本文所属为基本的最低的能运行起来的成本,在实际应用中还要考虑多人并发使用,成本通常就为成倍增加。

(2)软件成本。大模型的运行需要有各种软件的支撑,包括但不限于:AI推理程序(比如:llama.cpp、ollama、vllm、uphub ai(企业级AI推理软件)等)、webUI(在浏览器中使用对话,而不是在命令行)、数据库(企业级需要对大模型使用进行记录、多用户等)、向量数据库等。

(3) 部署实施人工成本;

(4)大模型软件维护成本;

(5) 硬件老化更新换代成本(大模型由于长时间高强度运行,硬件会更快老化,原5年硬件维保基本不适用,这种高强度运行,硬件在2年就得更换,所以服务器供应商承诺5年硬件质保大部分是不可能的实现或完全亏损);

(6) 单位内部使用人员培训成本;

(7) 业务系统对接成本(这个成本会比所有成本加起来还要大,甚至不可能实现);

(8) 本地知识库管理成本;

(9) 其它IT信息系统安全管理成本;

(10) 在实际运行中Context Size是影响内存占用的关键参数,值越接近训练上下文,对提示词的和生成的长文本越长;否则长文本能力越弱;而上下文越长所需的内存、GPU内存就越多(成倍增长),因此如果硬件内存不足可以降低上下文运行,虽然无法处理长文本,但一般场景是足够的,比如DeepSeek训练上下文是128K,实际运行中可以只需要4K(常规则的问答4K,就是4000个tokens,足够了),或4KB大小模拟并行32个对话同时处理(模拟并发对话)。

 

 

八、Deepseek 70B 本地部署硬件部分预算参考(按50并发,量化模型部署)

 

硬件组件 预估价格 (人民币)
NVIDIA A100/H100 GPU (8块) 800,000 - 1,600,000
Intel Xeon Gold/AMD EPYC CPU (2-4块) 100,000 - 300,000
内存 (1TB-2TB) 50,000 - 150,000
NVMe SSD (1TB-2TB) 30,000 - 80,000
网络设备 20,000 - 50,000
总计 1,100,000 - 2,380,000

注意: 以上价格仅为预估,实际价格会根据GPU型号、供应商、软件、人员成本、以及地区而有所不同。

电话图标 点我咨询