本文列出 Compute Engine 提供的 NVIDIA GPU 型號,您可以在虛擬機器 (VM) 執行個體上使用這些 GPU,加快機器學習 (ML)、資料處理和需要大量圖形處理的工作負載。本文也詳細說明哪些 GPU 預先附加至加速器最佳化機器系列 (例如 A4X、A4、A3、A2 和 G2),以及哪些 GPU 可附加至 N1 一般用途執行個體。
您可以參考這份文件,比較不同 GPU 型號的效能、記憶體和功能。如要進一步瞭解加速器最佳化機器家族,包括 CPU 平台、儲存空間選項和網路功能,以及找出符合工作負載的特定機型,請參閱「加速器最佳化機器家族」。
如要進一步瞭解 Compute Engine 上的 GPU,請參閱「關於 GPU」一文。
如要查看 Compute Engine 中 GPU 的可用區域和可用區,請參閱「GPU 區域和可用區」。
可用的 GPU 型號
下列 GPU 型號可搭配指定機器類型使用,支援 AI、機器學習和 HPC 工作負載。如果您有 3D 視覺化等需要處理大量圖形的工作負載,也可以建立採用 NVIDIA RTX 虛擬工作站 (vWS) 的虛擬工作站。部分 GPU 型號支援 NVIDIA RTX 虛擬工作站。建立使用 NVIDIA RTX Virtual Workstation 的執行個體時,Compute Engine 會自動新增 vWS 授權。如要瞭解虛擬工作站的定價資訊,請參閱 GPU 定價頁面。
對於 A 和 G 系列加速器最佳化機型,系統會自動將指定的 GPU 型號附加至執行個體。對於 N1 一般用途機器類型,您可以附加指定的 GPU 型號。
機型 | GPU 模型 | NVIDIA RTX 虛擬工作站 (vWS) 模型 |
---|---|---|
A4X | NVIDIA GB200 Grace Blackwell 超級晶片 (nvidia-gb200 )。 每個 Superchip 包含四個 NVIDIA B200 Blackwell GPU。 | |
A4 | NVIDIA B200 Blackwell GPU (nvidia-b200 ) | |
A3 Ultra | NVIDIA H200 SXM GPU (nvidia-h200-141gb ) | |
A3 Mega | NVIDIA H100 SXM GPU (nvidia-h100-mega-80gb ) | |
A3 High 和 A3 Edge | NVIDIA H100 SXM GPU (nvidia-h100-80gb ) | |
A2 Ultra | NVIDIA A100 80 GB GPU (nvidia-a100-80gb ) | |
A2 標準 | NVIDIA A100 40GB GPU (nvidia-a100-40gb ) | |
G4 (預覽版) | NVIDIA RTX PRO 6000 Blackwell Server 版 (nvidia-rtx-pro-6000 ) | |
G2 | NVIDIA L4 (nvidia-l4 ) | NVIDIA L4 虛擬工作站 (vWS) (nvidia-l4-vws ) |
N1 | NVIDIA T4 GPU (nvidia-tesla-t4 ) | NVIDIA T4 虛擬工作站 (vWS) (nvidia-tesla-t4-vws ) |
NVIDIA P4 GPU (nvidia-tesla-p4 ) | NVIDIA P4 虛擬工作站 (vWS) (nvidia-tesla-p4-vws ) | |
NVIDIA V100 GPU (nvidia-tesla-v100 ) | ||
NVIDIA P100 GPU (nvidia-tesla-p100 ) | NVIDIA P100 虛擬工作站 (vWS) (nvidia-tesla-p100-vws ) |
您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是一套超級電腦系統,經過最佳化處理,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立密集分配的基礎架構,並整合 Google Kubernetes Engine (GKE) 和 Slurm 排程器,以達到最佳效能。
A4X 系列機器
A4X 加速器最佳化 機型採用 NVIDIA GB200 Grace Blackwell Superchip (nvidia-gb200
),非常適合用於基礎模型訓練和服務。
A4X 是以 NVIDIA GB200 NVL72 為基礎的百京級平台。每部機器都有兩個插槽,搭載 NVIDIA Grace CPU 和 Arm Neoverse V2 核心。這些 CPU 會透過快速晶片對晶片 (NVLink-C2C) 通訊,連線至四個 NVIDIA B200 Blackwell GPU。
已連結 NVIDIA GB200 Grace Blackwell 超級晶片 | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3e) |
a4x-highgpu-4g | 140 | 884 | 12,000 | 6 | 2,000 | 4 | 720 |
* 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
†輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
‡GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A4 系列機型
A4 加速器最佳化機型連接 NVIDIA B200 Blackwell GPU (nvidia-b200
),非常適合用於基礎模型訓練和服務。
已連結的 NVIDIA Blackwell GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3e) |
a4-highgpu-8g | 224 | 3,968 | 12,000 | 10 | 3,600 | 8 | 1,440 |
* 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
†輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱網路頻寬。
‡GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A3 系列機器
A3 加速器最佳化機型連接的是 NVIDIA H100 SXM 或 NVIDIA H200 SXM GPU。
A3 Ultra 機型
A3 Ultra 機型連接 NVIDIA H200 SXM GPU (nvidia-h200-141gb
),是 A3 系列中網路效能最高的機型。A3 Ultra 機型非常適合基礎模型訓練和服務。
附加的 NVIDIA H200 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3e) |
a3-ultragpu-8g | 224 | 2,952 | 12,000 | 10 | 3,600 | 8 | 1128 |
* 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
†輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
‡GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A3 Mega、High 和 Edge 機型
如要使用 NVIDIA H100 SXM GPU,可以選擇下列方式:
- A3 Mega:這類機型搭載 H100 SXM GPU (
nvidia-h100-mega-80gb
),非常適合大規模訓練和服務工作負載。 - A3 High:這類機型搭載 H100 SXM GPU (
nvidia-h100-80gb
),非常適合訓練和服務工作。 - A3 Edge:這類機型搭載 H100 SXM GPU (
nvidia-h100-80gb
),專為提供服務而設計,且僅在特定區域提供。
A3 Mega
附加的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3) |
a3-megagpu-8g | 208 | 1,872 | 6,000 | 9 | 1,800 | 8 | 640 |
A3 High
附加的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3) |
a3-highgpu-1g | 26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g | 52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g | 104 | 936 | 3,000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g | 208 | 1,872 | 6,000 | 5 | 1,000 | 8 | 640 |
A3 Edge
附加的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3) |
a3-edgegpu-8g | 208 | 1,872 | 6,000 | 5 |
| 8 | 640 |
* 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
†輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
‡GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
A2 機器系列
A2 加速器最佳化機型連接 NVIDIA A100 GPU,非常適合模型微調、大型模型和符合成本效益的推論。
A2 系列機器分為兩種:
- A2 Ultra:這類機型連接 A100 80GB GPU (
nvidia-a100-80gb
) 和本機 SSD 磁碟。 - A2 Standard:這類機型連接 A100 40GB GPU (
nvidia-tesla-a100
)。建立 A2 Standard 執行個體時,您也可以新增本機 SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型。
A2 Ultra
已連結 NVIDIA A100 80GB GPU | ||||||
---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 已連結的本機 SSD (GiB) | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3) |
a2-ultragpu-1g | 12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g | 24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g | 48 | 680 | 1,500 | 50 | 4 | 320 |
a2-ultragpu-8g | 96 | 1,360 | 3,000 | 100 | 8 | 640 |
A2 Standard
已連結 NVIDIA A100 40GB GPU | ||||||
---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 支援本機 SSD | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB HBM3) |
a2-highgpu-1g | 12 | 85 | 是 | 24 | 1 | 40 |
a2-highgpu-2g | 24 | 170 | 是 | 32 | 2 | 80 |
a2-highgpu-4g | 48 | 340 | 是 | 50 | 4 | 160 |
a2-highgpu-8g | 96 | 680 | 是 | 100 | 8 | 320 |
a2-megagpu-16g | 96 | 1,360 | 是 | 100 | 16 | 640 |
* 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
†輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
‡GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
G4 系列機型
G4 加速器最佳化 機型使用 NVIDIA RTX PRO 6000 Blackwell Server Edition GPU (nvidia-rtx-pro-6000
), 適合用於 NVIDIA Omniverse 模擬工作負載、需要大量繪圖資源的應用程式、影片轉碼和虛擬桌面。與 A 系列機型相比,G4 機型也提供低成本解決方案,可執行單一主機推論和模型微調。
附加的 NVIDIA RTX PRO 6000 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 執行個體記憶體 (GB) | 附加的 Titanium SSD (GiB) | 實體 NIC 數量 | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB GDDR7) |
g4-standard-48 | 48 | 180 | 1,500 | 1 | 50 | 1 | 96 |
g4-standard-96 | 96 | 360 | 3,000 | 1 | 100 | 2 | 192 |
g4-standard-192 | 192 | 720 | 6,000 | 1 | 200 | 4 | 384 |
g4-standard-384 | 384 | 1,440 | 12,000 | 2 | 400 | 8 | 768 |
* 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
†輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。請參閱「網路頻寬」。
‡GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
G2 機型系列
G2 加速器最佳化機型連接 NVIDIA L4 GPU,非常適合用於成本最佳化的推論、需要大量圖形處理的作業,以及高效能運算工作負載。
每個 G2 機型也都有預設記憶體和自訂記憶體範圍。自訂記憶體範圍會定義每個機型可分配給執行個體的記憶體量。您也可以在建立 G2 執行個體時新增本機 SSD 磁碟。如要瞭解可附加的磁碟數量,請參閱需要選擇本機 SSD 磁碟數量的機器類型。
已附加的 NVIDIA L4 GPU | |||||||
---|---|---|---|---|---|---|---|
機型 | vCPU 數量* | 預設執行個體記憶體 (GB) | 自訂執行個體記憶體範圍 (GB) | 支援的最大本機 SSD (GiB) | 網路頻寬上限 (Gbps)† | GPU 數量 | GPU 記憶體‡ (GB GDDR6) |
g2-standard-4 | 4 | 16 | 16 至 32 | 375 | 10 | 1 | 24 |
g2-standard-8 | 8 | 32 | 32 至 54 | 375 | 16 | 1 | 24 |
g2-standard-12 | 12 | 48 | 48 到 54 歲 | 375 | 16 | 1 | 24 |
g2-standard-16 | 16 | 64 | 54 到 64 | 375 | 32 | 1 | 24 |
g2-standard-24 | 24 | 96 | 96 至 108 | 750 | 32 | 2 | 48 |
g2-standard-32 | 32 | 128 | 96 到 128 | 375 | 32 | 1 | 24 |
g2-standard-48 | 48 | 192 | 192 至 216 | 1,500 | 50 | 4 | 96 |
g2-standard-96 | 96 | 384 | 384 到 432 | 3,000 | 100 | 8 | 192 |
* 在其中一個可用的 CPU 平台中,我們會以單一硬體超執行緒的形式提供 vCPU。
†輸出頻寬上限不得超過指定數量。實際輸出頻寬取決於目的地 IP 位址和其他因素。如要進一步瞭解網路頻寬,請參閱「網路頻寬」。
‡GPU 記憶體是 GPU 裝置上的記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
N1 機器系列
您可以將下列 GPU 型號附加至N1 機器類型,但N1 共用核心機器類型除外。
與加速器最佳化機器系列中的機器類型不同,N1 機器類型不會隨附一組附加的 GPU。而是在建立執行個體時,指定要附加的 GPU 數量。
GPU 數量較少的 N1 執行個體會有 vCPU 數量上限。一般而言,GPU 數量越多,表示您可以建立 vCPU 較多且記憶體較大的執行個體。
N1+T4 GPU
您可以將 NVIDIA T4 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
加速器類型 | GPU 數量 | GPU 記憶體* (GB GDDR6) | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD |
---|---|---|---|---|---|
nvidia-tesla-t4 或nvidia-tesla-t4-vws | 1 | 16 | 1 至 48 | 1 至 312 | 是 |
2 | 32 | 1 至 48 | 1 至 312 | 是 | |
4 | 64 | 1 至 96 | 1 至 624 | 是 |
*GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
N1+P4 GPU
您可以將 NVIDIA P4 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
加速器類型 | GPU 數量 | GPU 記憶體* (GB GDDR5) | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD† |
---|---|---|---|---|---|
nvidia-tesla-p4 或nvidia-tesla-p4-vws | 1 | 8 | 1 至 24 | 1 至 156 | 是 |
2 | 16 | 1 至 48 | 1 至 312 | 是 | |
4 | 32 | 1 至 96 | 1 至 624 | 是 |
*GPU 記憶體是 GPU 裝置上的可用記憶體,可供您暫時儲存資料。與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
†對於已連結 NVIDIA P4 GPU 的執行個體,本機 SSD 磁碟僅支援 us-central1-c
和 northamerica-northeast1-b
區域。
N1+V100 GPU
您可以將 NVIDIA V100 GPU 附加至 N1 一般用途執行個體,並使用下列執行個體設定。
加速器類型 | GPU 數量 | GPU 記憶體* (GB HBM2) | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD† |
---|---|---|---|---|---|
nvidia-tesla-v100 | 1 | 16 | 1 至 12 | 1 至 78 | 是 |
2 | 32 | 1 至 24 | 1 至 156 | 是 | |
4 | 64 | 1 至 48 | 1 至 312 | 是 | |
8 | 128 | 1 至 96 | 1 至 624 | 是 |
*GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
†對於附加 NVIDIA V100 GPU 的執行個體,us-east1-c
不支援本機 SSD 磁碟。
N1+P100 GPU
您可以將 NVIDIA P100 GPU 附加至 N1 一般用途執行個體,但須符合下列執行個體設定。
對於部分 NVIDIA P100 GPU,某些設定的可用 CPU 和記憶體上限取決於 GPU 資源執行的區域。
加速器類型 | GPU 數量 | GPU 記憶體* (GB HBM2) | 可用區 | vCPU 數量 | 執行個體記憶體 (GB) | 支援本機 SSD |
---|---|---|---|---|---|---|
nvidia-tesla-p100 或nvidia-tesla-p100-vws | 1 | 16 | 所有 P100 區域 | 1 至 16 | 1 至 104 | 是 |
2 | 32 | 所有 P100 區域 | 1 至 32 | 1 至 208 | 是 | |
4 | 64 | us-east1-c 、europe-west1-d 、europe-west1-b | 1 至 64 | 1 至 208 | 是 | |
所有其他 P100 區域 | 1 至 96 | 1 至 624 | 是 |
*GPU 記憶體是 GPU 裝置上的可用記憶體,可用於暫時儲存資料。這與執行個體的記憶體不同,專門用於處理需要高頻寬的繪圖密集型工作負載。
一般比較圖表
下表說明 Compute Engine 上提供的不同 GPU 型號,在 GPU 記憶體大小、功能可用性,以及理想的工作負載類型等各個要素最適合的選項。
GPU 模型 | GPU 記憶體 | 互連網路 | 支援 NVIDIA RTX 虛擬工作站 (vWS) | 最適用 |
---|---|---|---|---|
GB200 | 180 GB HBM3e @ 8 TBps | NVLink 全網格 @ 1,800 GBps | 大規模分散式訓練和推論 LLM、推薦系統、HPC | |
B200 | 180 GB HBM3e @ 8 TBps | NVLink 全網格 @ 1,800 GBps | 大規模分散式訓練和推論 LLM、推薦系統、HPC | |
H200 | 141 GB HBM3e @ 4.8 TBps | NVLink 全網格 @ 900 GBps | 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、HPC、BERT、DLRM | |
H100 | 80 GB HBM3 @ 3.35 TBps | NVLink 全網格 @ 900 GBps | 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、HPC、BERT、DLRM | |
A100 80GB | 80 GB HBM2e @ 1.9 TBps | NVLink 全網格 @ 600 GBps | 大型模型,搭配巨量資料表,適用於機器學習訓練、推論、HPC、BERT、DLRM | |
A100 40GB | 40 GB HBM2 @ 1.6 TBps | NVLink 全網格 @ 600 GBps | 機器學習訓練、推論、HPC | |
RTX PRO 6000 (預先發布版) | 96 GB GDDR7 (含 ECC) @ 1597 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC | |
L4 | 24 GB GDDR6 @ 300 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼、HPC | |
T4 | 16 GB GDDR6 @ 320 GBps | 不適用 | 機器學習推論、訓練、遠端視覺化工作站、影片轉碼 | |
V100 | 16 GB HBM2 @ 900 GBps | NVLink 環狀拓撲 @ 300 GBps | 機器學習訓練、推論、HPC | |
P4 | 8 GB GDDR5 @ 192 GBps | 不適用 | 遠端視覺化工作站、機器學習推論與影片轉碼 | |
P100 | 16 GB HBM2 @ 732 GBps | 不適用 | 機器學習訓練、推論、HPC、遠端視覺化工作站 |
如要比較 Compute Engine 提供之不同 GPU 型號和地區的 GPU 定價,請參閱 GPU 定價一文。
成效比較圖表
下表說明 Compute Engine 提供的不同 GPU 型號效能規格。
運算效能
GPU 模型 | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90 TFLOPS | 180 TFLOPS | ||
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 | 34 TFLOPS | 67 TFLOPS | ||
H100 | 34 TFLOPS | 67 TFLOPS | ||
A100 80GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
L4 | 0.5 TFLOPS* | 30.3 TFLOPS | ||
T4 | 0.25 TFLOPS* | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS* | 5.5 TFLOPS | 22 TOPS† | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS |
*為了讓 FP64 程式碼正常運作,T4、L4 和 P4 GPU 架構中包含少量的 FP64 硬體單元。
†每秒萬億次運算。
Tensor Core 效能
GPU 模型 | FP64 | TF32 | 混合精確度 FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90 TFLOPS | 2,500 TFLOPS† | 5,000 TFLOPS*, † | 10,000 TFLOPS† | 20,000 TFLOPS† | 10,000 TFLOPS† |
B200 | 40 TFLOPS | 1,100 TFLOPS† | 4,500 TFLOPS*、† | 9,000 TFLOPS† | 9,000 TFLOPS† | |
H200 | 67 TFLOPS | 989 TFLOPS† | 1,979 TFLOPS*、† | 3,958 TOPS† | 3,958 TFLOPS† | |
H100 | 67 TFLOPS | 989 TFLOPS† | 1,979 TFLOPS*、† | 3,958 TOPS† | 3,958 TFLOPS† | |
A100 80GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
A100 40GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS† | 242 TFLOPS*, † | 485 TOPS† | 485 TFLOPS† | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
*如要進行混合精度訓練,NVIDIA GB200、B200、H200、H100、A100 和 L4 GPU 也支援 bfloat16
資料型別。
†NVIDIA GB200、B200、H200、H100 和 L4 GPU支援結構化稀疏性。您可以使用結構化稀疏性,將模型效能提升一倍。使用結構化稀疏性時,適用於文件中記錄的值。 如果未使用結構化稀疏性,值會減半。
後續步驟
- 進一步瞭解 Compute Engine GPU。
- 查看 GPU 區域和可用區的可用性。
- 查看網路頻寬和 GPU。
- 查看 GPU 定價詳細資料。