日韩在线视频一区二区三,999在线视频,在线麻豆视频

NVIDIA A10 與 A100 GPU 對比分析：用于LLM 和Stable Diffusion推理

發(fā)布時間： 2024-07-02 14:22

部署新的 ML 模型時，很難決定需要哪種 GPU 進(jìn)行推理。您需要一款能夠運(yùn)行模型的 GPU，但又不想花太多錢購買比您需要的更強(qiáng)大的顯卡。本文比較了兩種流行的模型推理選擇 — NVIDIA 的 A10 和 A100 GPU，并討論了使用多 GPU 實(shí)例處理較大模型的選項(xiàng)。

在為模型推理任務(wù)選擇 A10 和 A100 時，請考慮延遲、吞吐量和模型大小的要求以及預(yù)算。而且您不僅限于單個 GPU。您可以通過在單個實(shí)例中組合多個 A100 來運(yùn)行對于一個 A100 來說太大的模型，并且您可以通過將它們拆分到多個 A10 上來節(jié)省一些大型模型推理任務(wù)的費(fèi)用。

本指南將幫助您在為模型推理工作負(fù)載選擇 GPU 時在推理時間和成本之間做出正確的權(quán)衡。

一、關(guān)于 Ampere GPU

A10 和 A100 中的“A”表示這些 GPU 是基于 NVIDIA 的Ampere 微架構(gòu)構(gòu)建的。Ampere 以物理學(xué)家 André-Marie Ampère 的名字命名，是 NVIDIA 推出的一種微架構(gòu)，用于替代之前的Turing 微架構(gòu)。Ampere 微架構(gòu)于 2020 年首次發(fā)布，為RTX 3000 系列消費(fèi)級 GPU提供支持，其中最受矚目的是 GeForce RTX 3090 Ti，但它在數(shù)據(jù)中心的影響更大?；?Ampere 的數(shù)據(jù)中心 GPU 有六種：

NVIDIA A2

NVIDIA A10

NVIDIA A16

NVIDIA A30

NVIDIA A40

NVIDIA A100（有 40 和 80 GiB 版本）

在這些 GPU 中，A10 和 A100 最常用于模型推理，還有 A10G，這是 A10 的 AWS 特定變體，可互換用于大多數(shù)模型推理任務(wù)。我們將在本文中比較標(biāo)準(zhǔn) A10 和 80 GB 的 A100。

二、A10 與 A100：規(guī)格

這兩款 GPU 都有很長的規(guī)格表，但一些關(guān)鍵信息讓我們了解 A10 和 A100 在 ML 推理方面的性能差異。

對于機(jī)器學(xué)習(xí)推理來說，最重要的因素是 FP16 Tensor Core 性能，它表明 A100 的性能是 A10 的兩倍多，擁有 312 teraFLOP（1 teraFLOP 是每秒一萬億次浮點(diǎn)運(yùn)算）。A100 還擁有三倍以上的 VRAM，這對于處理大型模型至關(guān)重要。

1、核心數(shù)量和核心類型

A100 的卓越性能源自其較高的Tensor Core數(shù)量。

CUDA 核心是 GPU 中的標(biāo)準(zhǔn)核心。A10 的 CUDA 核心實(shí)際上比 A100 多，這與其更高的基本 FP32 性能相對應(yīng)。但對于 ML 推理而言，Tensor Cores 更為重要。

Ampere 卡采用第三代 Tensor Core。這些核心專門用于矩陣乘法，這是 ML 推理中最耗費(fèi)計(jì)算資源的部分之一。A100 的 Tensor Core 數(shù)量比 A10 多 50%，這使其模型推理能力得到極大提升。

光線追蹤 (RT) 核心不用于大多數(shù) ML 推理任務(wù)。它們更常用于使用 Blender、Unreal Engine 和 Unity 等引擎的面向渲染的工作負(fù)載。A100 針對 ML 推理和其他 HPC 任務(wù)進(jìn)行了優(yōu)化，因此它沒有任何 RT 核心。

2、VRAM 和內(nèi)存類型

VRAM，即視頻隨機(jī)存取存儲器，是 GPU 上的內(nèi)存，可用于存儲計(jì)算數(shù)據(jù)。VRAM 通常是模型調(diào)用的瓶頸；您需要足夠的 VRAM 來加載模型權(quán)重并處理推理。

A10 具有 24GiB 的 DDR6 VRAM。同時，A100 有兩個版本：40GiB 和 80GiB。兩個版本的 A100 都使用 HBM2，這是一種比 DDR6 更快的內(nèi)存架構(gòu)。由于采用了 HBM2 架構(gòu)，A100 比 A10 擁有更大的內(nèi)存總線和更大的帶寬。HBM2 的生產(chǎn)成本更高，因此僅限于這些旗艦 GPU。

Baseten 為 A100 提供 80GiB VRAM，因?yàn)檫@通常是模型推理所需要的。

三、A10 與 A100：性能

規(guī)格看起來很棒，但它們?nèi)绾无D(zhuǎn)化為實(shí)際任務(wù)？我們在 A10 和 A100 上對Llama 2和Stable Diffusion等流行模型的模型推理進(jìn)行了基準(zhǔn)測試，以了解它們在實(shí)際用例中的表現(xiàn)。

這些示例中的所有模型均以浮點(diǎn) 16 (fp16) 運(yùn)行。這通常稱為“半精度”，意味著 GPU 正在對 16 位浮點(diǎn)數(shù)進(jìn)行計(jì)算，與以全精度 (浮點(diǎn) 32) 進(jìn)行計(jì)算相比，這可節(jié)省大量時間和內(nèi)存。

1、Llama 2 推理

Llama 2是 Meta 開源的大型語言模型，有三種大小：70 億、130 億和 700 億個參數(shù)。模型大小越大，結(jié)果越好，但需要更多的 VRAM 來運(yùn)行模型。

一個好的經(jīng)驗(yàn)法則是，大型語言模型在 fp16 中運(yùn)行時，每十億個參數(shù)需要 2 GB 的 VRAM，再加上運(yùn)行推理和處理輸入和輸出的一些開銷。因此，Llama 2 模型具有以下硬件要求：

A100 GPU 可讓您運(yùn)行更大的模型，對于超過其 80 GB VRAM 容量的模型，您可以在單個實(shí)例中使用多個 GPU 來運(yùn)行該模型。A100 GPU 可讓您運(yùn)行更大的模型，對于超過其 80 GB VRAM 容量的模型，您可以在單個實(shí)例中使用多個 GPU 來運(yùn)行該模型。

2、Stable Diffusion 推理

Stable Diffusion 適用于 A10 和 A100，因?yàn)?A10 的 24 GiB VRAM 足以運(yùn)行模型推理。因此，如果它適用于 A10，為什么還要在更昂貴的 A100 上運(yùn)行它？

A100 不僅更大，而且速度更快。優(yōu)化穩(wěn)定擴(kuò)散推理后，該模型在 A100 上的運(yùn)行速度大約是在 A10 上的兩倍。

因此，如果必須盡快生成圖像，則在 A100 上部署將為您提供單個請求的最快推理時間。

四、A10 與 A100：價格

雖然 A100 比 A10 更大更快，但使用起來也更昂貴。捷智算的 A100 實(shí)例每分鐘 0.10240 美元，是最便宜的配備 A10 的實(shí)例（每分鐘 0.02012 美元）的五倍。

如果更快的推理時間絕對重要，您可以在 A100 上運(yùn)行較小的模型（如 Stable Diffusion）以獲得更快的結(jié)果。但成本很快就會增加。因此，如果您主要關(guān)心的是吞吐量（單位時間內(nèi)創(chuàng)建的圖像數(shù)量，而不是創(chuàng)建每個圖像所需的時間），那么您最好水平擴(kuò)展到多個實(shí)例，每個實(shí)例都使用 A10。使用捷智算，您可以在每次模型部署時獲得自動擴(kuò)展基礎(chǔ)設(shè)施，從而使這種水平擴(kuò)展自動化。

1、計(jì)算模型吞吐量

假設(shè)您需要 Stable Diffusion 每分鐘 1,000 張圖像的吞吐量，但生成每張圖像需要多少秒并不重要。做出許多現(xiàn)實(shí)世界中不存在的簡化假設(shè)（一致的流量模式、可忽略的網(wǎng)絡(luò)延遲等），您將從 A10 實(shí)例每分鐘獲得大約 34 張圖像，這意味著您將以每分鐘約 0.60 美元（每分鐘每實(shí)例 0.02012 美元乘以 30 個實(shí)例）的價格獲得所需的吞吐量。

同時，在 A100s 上，您只需要 15 個實(shí)例，每分鐘就可以生成 67 張圖像，但每個實(shí)例的成本是其 5 倍，總吞吐量成本約為 1.54 美元/分鐘（每個實(shí)例每分鐘 0.10240 美元乘以 15 個實(shí)例），或大約 2.5 倍。

除非生成每張圖像的時間非常關(guān)鍵，否則在許多用例中，使用 A10 進(jìn)行水平擴(kuò)展可以為您提供比使用 A100 更具成本效益的吞吐量。

管理模型推理的多個副本可能是一個很大的難題，因此 Baseten 提供了自動擴(kuò)展功能，使吞吐量的擴(kuò)展變得簡單且免維護(hù)。

2、多個 A10 與一個 A100

A10 還可以幫助您垂直擴(kuò)展，創(chuàng)建更大的實(shí)例來運(yùn)行更大的模型。假設(shè)您想要運(yùn)行一個太大而無法在 A10 上容納的模型，例如Llama-2-chat 13B。除了啟動昂貴的 A100 支持的實(shí)例之外，您還有另一種選擇。

相反，您可以選擇在具有多個 A10 的單個實(shí)例上運(yùn)行模型。2 個 A10 合計(jì)擁有 48 GiB 的 VRAM，足以滿足 130 億參數(shù)模型的需求。具有 2 個 A10 的實(shí)例每分鐘成本為 0.05672 美元，略高于單個 A100 成本的一半。

當(dāng)然，在 A100 上推理速度仍然會更快。在一個實(shí)例中使用多個 A10 可讓您在更大的模型上運(yùn)行推理，但這不會使推理速度更快。使用多個 A10 而不是 A100 的選項(xiàng)可讓您根據(jù)用例和預(yù)算在速度和成本之間進(jìn)行權(quán)衡。

捷智算提供多 GPU 實(shí)例，最多可配備 8 個 A10 或 8 個 A100。

五、哪種 GPU 適合您？

A100 無疑是一款功能強(qiáng)大的顯卡，也是某些 ML 推理任務(wù)的唯一選擇。但 A10（尤其是在單個實(shí)例中具有多個顯卡的情況下）為許多工作負(fù)載提供了經(jīng)濟(jì)高效的替代方案。最終，選擇取決于您的需求和預(yù)算。

如果 A10 和 A100 都超出了您的使用情況，這里是A10 與較小的 T4 GPU 的比較，與要求不高的推理任務(wù)相比，這可以為您節(jié)省 A10 的費(fèi)用。

還有 A10G，這是 A10 的 AWS 專用變體。雖然這些卡具有不同的統(tǒng)計(jì)數(shù)據(jù)，但它們對于大多數(shù)模型推理任務(wù)而言是可以互換的。

如需估算不同 GPU 的成本，請查看捷智算的定價頁面，并使用我們方便的計(jì)算器根據(jù)按分鐘付費(fèi)的 GPU 定價估算每月支出。我們隨時幫助您找到最適合您的 ML 推理需求的硬件。

H100整機(jī)服務(wù)器多少錢一臺？英偉達(dá)H100整機(jī)價格變化分析

英偉達(dá)整機(jī)模組價格對比分析：H100 VS H800

熱門產(chǎn)品

NVIDIA QM9790 交換機(jī)

NVIDIA H100 Tensor Core GPU

為各類數(shù)據(jù)中心提供出...

ESC-N8-E11 AI超算服務(wù)器

NVIDIA HGX...

英偉達(dá)h200,全球高性能GPU,現(xiàn)貨

英偉達(dá)h200,Te...

NVIDIA H100 Tensor Core GPU

為各類數(shù)據(jù)中心提供出...