上交大IPADS实验室 投稿 量子位 | 公众号 QbitAI 原本需要一张16万元的80G A100干的活,现在只需要一张不到2万元的24G 4090就够了! 上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。 而且不用量化,就用FP16精度,也能让40B模型在个人电脑上运行;如果加入量化,2080 Ti也能流畅运行70B模型。 结合大模型的独特特征,通过CPU与GPU间的混合计算,PowerInfer能够在显存有限的个人电脑上实现快速推理。 相比于llama.cpp,…