支持纯CPU部署AI

UpHub AI支持多种后端（backends）进行AI大模型推理，包括纯CPU方案（llama.cpp）。随UpHub AI安装包，我们提供了Turnllama.cpp(基于llama.cpp开发的推理后端)，以协助您快速本地化部署AI大模型。

纯CPU部署AI大模型，一直是国内外研究的方向，它主要是通过对AI大模型的浮点权重进行整数量化，减少计算量，从而在CPU上直接运行AI大模型的推理，这方面的主要技术是gguf格式的量化方式，它可以有Q4、Q2、Q6、Q8等多种量化版本。其中Q4版本是权衡性能和推理损失后较为合理的纯CPU推理版本。

目前纯CPU推理主要推动项目是开源项目llama.cpp，这是一个由meta开源的纯CPU部署AI的推理项目，我们在通过llama.cpp开发的turnllama.cpp（取自意思：反过来的LLM推理，即打破传统提供服务的方式，而是把AI当成一个任务执行者），已经默认集成到UpHub AI，可以很方便地实现AI大模型的私有化部署，而不需要理解太多复杂的AI技术和配置。

目前我们已经在不同的配置上测试了：Deepseek-R1 7B,8B,1.5B，Qwen3 0.6B, 4B, 8B、Gemma3 4B,12B等版本，基本上可以在一台普通PC电脑上运行和部署（i7、64GB内存、M2磁盘）。