Deepseek 70B,是通过与llama蒸溜训练而成。其性能、准确性相对较高,这是很多企业、医院、事业单位本地部署大模型平衡成本与效果的选择之一。Deepseek 70B成为很多企业、医院和事业单位的选择,相比满血版671B其体积小了很多。要了解部署70B需要什么硬件资源,首页得从Deepseek 70B大模型的各个版本、各个指标说起。
一、Deepseek 70B有哪些版本?
(1) Deepseek 70B 原始版本。名称叫:DeepSeek-R1-Distill-Llama-70B,模型参数为:700亿参数。文件大小为:141GB。
(2) Deepseek 70B Q3_K_L量化版,大小为:38GB。
(3) Deepseek 70B Q4_K_M量化版,大小为:43GB。
(4) Deepseek 70B Q6_K量化版,大小为:58GB。
(5) Deepseek 70B Q8_0量化版,大小为:75GB。
二、选择Deepseek70B的什么版本?
这取决于业务场景,成本预算,精确度要求。比如硬件资源充足,可以选择原始版。否则选择量化版,各版本所需硬件成本从大到小依次为:
Deepseek 70B原始版 > Q8量化版 > Q6量化版 > Q4量化版 > Q3量化版。
作为平衡性能与成本,可以选择Q4版。
三、Deepseek需要什么硬件配置?
大模型的运行主要硬件是CPU、GPU显存、物理内存。
内存和显存计算比较容易,首先大模型要运行,得全部加载到内存中,所以比如要运行原始版,内存必须大于141GB,实际上模型要真正运行起来,需要预留20%和系统本身需要的内存,一般是按模型的大小乘2,即280GB以上内存是比较合理的选择。但原始版显然很难在CPU上运行,这个内存就全部需要由GPU来提供,因此这就至少于要两个显存为141GB的显卡,比如两张英伟达A100,141GB显存版。为了让CPU不要拖累推理和并行处理,70BCPU至少20核心以上。这样算下来,本地部署Deepseek所需硬件至少为:256GB以上内存、两张A100(141GB)、20核以上CPU。配置这样的硬件一台成本应该在60万左右。这只是一套推理系统的硬件,如果要考虑并行(多人同时推理),还需要额外的软件、硬件支持,同时还需要配置运维人员,以及硬件快速老化带来的维修和换新成本。
对于量化版本(Qxxxx),这些版本简单来说就是把本身是float的模型参数按一定的空间按比例折算成int后存放的版本,想象一下科学家为什么想方设法计算PI的几百万位?就是小数点后位数越多,精确度越高。大模型在量化后,把小数后N位省去,映射到一定范围的int空间,这样必须损失精度,但是对于一般的对话应用场景,这已经完全够用,最重要的是量化版可以在低配置的服务器(甚至不要GPU)上运行。这里以Q4为例大概估算一下运行条件。
正如前面所说,要运行大模型,加载到内存是必须的。比如Deepseek 70B Q4版是43GB,所以要运行它,内存就不得少于43GB,为了能进行基本运行,64GB是最低配置了。要使用Deepseek 70B进行推理,CPU在20核心以上是最低要求。这样的话,Deepseek 70B在一般的至强处理器,128GB的内存上即可运行,甚至可以不用GPU,但这个推理速度可能慢得惊人,我们在一台普通的PC(4核,8线程),64GB的内存上运行70B,平均推理速度为:0.01 tokens/s。所以Deepseek 70B Q4量化版建议使用4090显卡x2+上双CPU至强系列处理器比较合理。这样一套硬件成本在10万左右。
四、Deepseek 70B 推理需要什么软件?
有了硬件,是不是就马上能运行大模型为业务提升效率了呢? 显然不是。大模型除了硬件的要求外,需要配套的软件才能真正运行起来,要用到业务中那是需要定制开发和魔改你的业务系统才行,这就不在本文中讨论了。本文以能运行起来,不谈业务。
原始版运行:所需要软件开源vLLM(需要专业技术人员部署、实施、维护)、UpHub AI、其它企业级大模型软件。
量化版运行:llama.cpp、ollama、UpHub AI。
知识库:RAG Flow、UpHub AI。
大模型运行软件很多,很杂,基本都需要有专业的技术人员进行部署、实施和维护。否则本地部署的硬件是浪费。
通常企业级的软件(纯推理、多人使用等),每年成本在5万到20万之间。
五、 Deepseek 70B 部署了就可以用自己的知识库了?
本地部署大模型,主要为隐私和数据安全考虑。但实际上在部署后要用上知识库,还需要额外的软件支撑。比如RAGFlow、UpHub AI等。这会增加AI大模型软软件的部署和实施难度,会增加额外的软件成本。
六、Deepseek 70B 部署后就能与业务对接了?
通常大模型部署后,的确可以提供API、本地对话或多模态模型推理。但与实际业务要集成,还要很长的路要走。首先你的业务系统得具备调用AI大模型的API的能力,同时你的业务流得具有要用到大模型的能力和流程,这显然需要对企业的已有或即将有的业务系统进行AI化升级和定制,这个成本将是企业实施大模型最大的成本。所以现阶段,大部分单位本地部署大模型只是单独运行,不会与业务系统进行集成。
七、Deepseek 70B 本地部署后成本总结
(1)硬件成本。本文所属为基本的最低的能运行起来的成本,在实际应用中还要考虑多人并发使用,成本通常就为成倍增加。
(2)软件成本。大模型的运行需要有各种软件的支撑,包括但不限于:AI推理程序(比如:llama.cpp、ollama、vllm、uphub ai(企业级AI推理软件)等)、webUI(在浏览器中使用对话,而不是在命令行)、数据库(企业级需要对大模型使用进行记录、多用户等)、向量数据库等。
(3) 部署实施人工成本;
(4)大模型软件维护成本;
(5) 硬件老化更新换代成本(大模型由于长时间高强度运行,硬件会更快老化,原5年硬件维保基本不适用,这种高强度运行,硬件在2年就得更换,所以服务器供应商承诺5年硬件质保大部分是不可能的实现或完全亏损);
(6) 单位内部使用人员培训成本;
(7) 业务系统对接成本(这个成本会比所有成本加起来还要大,甚至不可能实现);
(8) 本地知识库管理成本;
(9) 其它IT信息系统安全管理成本;
(10) 在实际运行中Context Size是影响内存占用的关键参数,值越接近训练上下文,对提示词的和生成的长文本越长;否则长文本能力越弱;而上下文越长所需的内存、GPU内存就越多(成倍增长),因此如果硬件内存不足可以降低上下文运行,虽然无法处理长文本,但一般场景是足够的,比如DeepSeek训练上下文是128K,实际运行中可以只需要4K(常规则的问答4K,就是4000个tokens,足够了),或4KB大小模拟并行32个对话同时处理(模拟并发对话)。
八、Deepseek 70B 本地部署硬件部分预算参考(按50并发,量化模型部署)
硬件组件 | 预估价格 (人民币) |
---|---|
NVIDIA A100/H100 GPU (8块) | 800,000 - 1,600,000 |
Intel Xeon Gold/AMD EPYC CPU (2-4块) | 100,000 - 300,000 |
内存 (1TB-2TB) | 50,000 - 150,000 |
NVMe SSD (1TB-2TB) | 30,000 - 80,000 |
网络设备 | 20,000 - 50,000 |
总计 | 1,100,000 - 2,380,000 |
注意: 以上价格仅为预估,实际价格会根据GPU型号、供应商、软件、人员成本、以及地区而有所不同。