从算法和模型中暂时休息一下,我们跳入了GPU的世界。上周末,我有机会测试了多个GPU,包括最先进的Nvidia H100、RTX 5090、RTX 4090等。在这篇博客文章中,我将总结它们的性能,并比较它们在AI特定任务中的加速效果,无论是LLMs的推理还是LLMs的微调。
如果你是GPU世界的新人,下面是一个简要的比较这些GPU如何预期与CPU相比:
在一个理想的世界里,每种GPU相对于CPU的预期提升如下:
为了比较性能提升,我选择了两个任务:
使用LLM进行摘要对小数据集进行LLM微调为什么?虽然一些LLM更适合推理,而另一些可能更适合微调。因此,我选择了这两个不同的任务来测试这些GPU与CPU。
1、任务1 — 使用LLM进行摘要在这个任务中,我使用了Google的T5大型LLM(大约7亿参数)对100篇随机文章进行摘要。重点不是查看输出的质量,而是每种硬件需要多长时间来完成摘要。除了使用的硬件(即CPU或GPU)之外,所有其他规格都保持不变。
以下是使用的代码:
以下是实验结果。对于CPU,请注意这个数字是基于一个epoch的时间估算的,因为它花费了很长时间。
上述实验得出了一些见解,这将帮助你更好地理解CPU与GPU之间的差异,并选择适合你的下一个GPU:
3.1 CPU在LLM任务中表现非常缓慢让我们面对现实:使用CPU进行推理或微调就像试图在自行车比赛中获胜一样。你看到了:
使用CPU进行T5摘要需要24秒 vs T4需要1.6秒微调DistilBERT需要约12,000秒(估计值) vs T4需要243秒3.2 T4是“基准GPU”——仍然令人尊敬来自Google Colab的Tesla T4并没有让人失望,但仍保持了自己的地位。它提供了:
推理速度提升约15倍微调速度提升约50倍3.3 RTX 4090是性价比的最佳选择这张卡特别在微调方面表现出色:
推理时间:69秒微调时间:5个epoch需要60秒,或者每个epoch需要12秒3.4 RTX 5090:更新≠更好(目前)这是一个情节转折。5090比4090更新,理论上应该碾压它——但结果却是:
推理:75秒(比4090的69秒慢)微调:125秒(比4090慢2倍以上)为什么?
软件瓶颈:PyTorch、Hugging Face或CUDA驱动程序可能还没有完全针对5090架构进行优化。我所知道的是,Nvidia没有提供任何AI基准测试结果,尽管他们一直在吹嘘5090的表现优于4090。3.5 Nvidia H100:企业级巨兽,但尚未完全释放潜力啊,是的,AI Mjölnir——H100。这东西是预训练的怪物。但在测试中:
推理:60秒(仅比4090快13%)微调:总计46秒,或者每个epoch约9秒(最快!)为什么性能平平?
开销:H100在超大批次大小和多GPU并行性下表现最佳。软件不匹配:像Hugging Face Transformers这样的LLM库可能还没有充分利用H100的架构。模型大小:你使用的DistilBERT和T5-Large——H100是为GPT-4规模的模型设计的。3.6 微调比推理获得更大的加速别忘了这个黄金法则:
推理获得了约30–40倍的速度提升微调获得了约50–260倍的速度提升为什么?
微调是GPU密集型的:反向传播、优化步骤、内存缓存——它利用了你能提供的每一个CUDA核心。推理相对较轻。3.7 硬件≠软件准备就绪这是贯穿整个实验的主题
这一点至关重要。你可以花10,000美元购买一块GPU,但如果你的transformer库或CUDA驱动程序没有针对它进行优化,你就会被瓶颈限制。这对像5090这样的新卡或像H100这样的企业级巨兽来说尤其如此。
4、一些建议经过这次实验,我学到了很多关于AI硬件方面的知识:
买今天支持的产品,而不是明天炒作的产品。 4090表现很好。当新GPU推出时,检查Hugging Face论坛或PyTorch发布说明——支持总是滞后。对于研究或小型训练,即使是Colab上的免费T4也能带你走很远。除非是在测试代码或在后台写博客文章时,否则不要使用CPU。5、结束语如果你正在认真处理LLMs,那么硬件比以往任何时候都更重要。使用CPU就像是带着刀去参加激光战斗。即使是入门级的T4也能轻松击败它。然而,RTX 4090却找到了完美的平衡点:它强大、成熟,并且得到了现有库的良好支持。虽然RTX 5090看起来很棒,但软件生态系统还没有准备好——至少现在还没有。至于H100?毫无疑问是一头猛兽,但除非你运行的是GPT规模的模型并且有优化的管道,否则你就是在浪费一台超级计算机。
底线:根据你的工作负载购买,而不是追逐潮流。今天,4090统治着LLM领域。
原文链接:推理/微调速度对比:CPU vs. GPU - 汇智网
相关教程
2025-06-01
2024-01-16
2024-10-14
2024-08-01
2025-05-26
2024-10-11
2023-11-27
2023-10-21
2024-08-16
2024-06-14
2025-06-06
2025-06-06
2025-06-06
2025-06-05
2025-06-05
2025-06-04
copyright © 2012-2025 系统家园网 m.hnzkhbsb.com 版权声明