AMD's Instinct GPU-serie bliver populær i computer- og AI-fællesskabet. Her er hvorfor.
Der er ingen tvivl om, at NVIDIA fortsætter med at dominere det parallelle computerrum med sine forskellige populære GPU-serier. Men med AMD's Instinct AI-acceleratorer, der udstyrer to af de nyeste og største supercomputere (Frontier og El Capitan) og fællesskabets voksende støtte til deres open source ROCm-platform, har NVIDIA måske fundet deres største rival til dato.
Så hvad er AMD's Instinct AI-acceleratorer helt præcist? Hvad gør dem kraftfulde, og hvordan kan de sammenlignes med NVIDIAs Tensor GPU'er?
Hvad er en AMD Instinct-processor?
AMD's Instinct-processorer er hardware i virksomhedskvalitet, der bruges til højtydende computing (HPC) og AI-accelereret behandling. I modsætning til almindelige GPU'er i forbrugerkvalitet, er Instinct GPU'erne specialiserede til bedre at håndtere AI-læring og andre højtydende opgaver gennem software- og hardwareinnovationer.
AMD's Instinct-serie af GPU'er blev brugt til at drive den første supercomputer til at bryde Exascale-barrieren, og ydede med 1,1 EFLOP'er ved dobbeltpræcisionsoperationer i sekundet. Supercomputere, der bruger Instinct GPU'er, bliver i øjeblikket brugt til at forske i kræftbehandlinger, bæredygtig energi og klimaændringer.
Hvordan instinktprocessorer accelererer AI og HPC
Til verdens mest kraftfulde mainstream-servere og supercomputere for at opnå behandling på Exascale-niveau skulle AMDs Instinct-acceleratorer udstyres med adskillige teknologiske opgraderinger og innovationer.
Lad os diskutere noget af den nye og opdaterede teknologi, der bruges på AMD Instinct GPU'er.
1. Beregn DNA (CDNA)
Nylige AMD Instinct-acceleratorer (startende fra MI100) har brugt virksomhedens CDNA-arkitektur.
CDNA fokuserer primært på funktioner såsom parallel behandling, hukommelseshierarki og optimeret computerydelse gennem deres Matrix Core-teknologi. Selv HPC og AI eller maskinlæring, der kører på enkelte servere, kan understøttes af CDNA, såvel som enorme Exascale-computere.
AMDs Matrix Core-teknologi accelererer AI-indlæring ved at understøtte operationer med blandet præcision. Evnen til at beregne med forskellig præcision giver Instinct GPU'er mulighed for effektivt at beregne matrixoperationer baseret på det nødvendige præcisionsniveau.
De mest populære beregningspræcisionsformater inkluderer FP64, FP32, FP16, BF16 og INT8. FP står for Floating Point, BF for Brain Floating Point og INT for Integer. Jo højere tal, der svarer til formatet, jo mere præcis er beregningen. At arbejde ved 64-bit er kendt som dobbelt-præcision. Med 32-bit er det enkelt-præcision, 16-bit er det halv-præcision og så videre.
Da en stor del af træningsmodeller for dyb læring ikke kræver meget præcision, har evnen til at beregne matrix operationer med halv præcision eller endda kvart præcision til inferencing reducerer arbejdsbyrden betydeligt og accelererer dermed AI læring.
2. High Bandwidth Memory (HBM)
Hver AMD Instinct AI-accelerator kommer med op til 880 Matrix Cores. Med AMDs Matrix Core-processorer, der er i stand til at udføre 383 TFLOP'er med halvpræcisionsberegninger, er det nødvendigt at have ultrahurtig hukommelse. AMDs seneste Instinct-tilbud er udstyret med High Bandwidth Memory (HBM) i stedet for den sædvanlige DDR4 eller DDR5 RAM.
I modsætning til konventionel hukommelse bruger HBM, hvad der er kendt som en stablet 3D-arkitektur. Denne type arkitektur refererer til en designtilgang, hvor DRAM-matricer er lodret stablet oven på hinanden. Dette gør det muligt at stable matricer på både den lodrette og vandrette akse, deraf udtrykket 3D-stabling.
Med denne 3D-stablingsteknologi kan HBM'er have fysiske hukommelseskapaciteter så store som et par hundrede gigabyte pr. modul, mens DRR5 kun kan klare op til snesevis af gigabyte pr. modul. Bortset fra kapacitet er HBM'er også kendt for at have højere ydeevne med hensyn til overførselshastighed og bedre strømeffektivitet end almindelig DDR-hukommelse.
3. Infinity stof
En anden innovation inkluderet i Instinct GPU'er er AMD's Infinity Fabric-teknologi. Infinity Fabric er en type sammenkoblingssystem, der forbinder CPU'er og GPU'er på en smart dynamisk måde. Dette gør det muligt for komponenterne at kommunikere effektivt med hinanden.
Med Infinity Fabric, i stedet for at forbinde komponenter med en almindelig bus, er komponenter nu forbundet i et mesh-lignende netværk, hvor båndbredder kan være op til flere hundrede gigabyte i sekundet.
Bortset fra den mesh-lignende sammenkobling bruger Infinity Fabric også sensorer indlejret i hver matrice til dynamisk kontrolfrekvens, dataoverførselshastigheder og anden adaptiv adfærd, optimering af ydeevne og minimering reaktionstid.
4. ROCm udviklingsplatform
NVIDIAs CUDA (compute unified device architecture) er den mest udbredte udviklingsplatform til træning af AI-modeller. Problemet med CUDA er, at det kun virker med NVIDIA GPU'er. Dette er en af hovedårsagerne til, at NVIDIA har det overvældende flertal af markedsandele for HPC- og AI GPU-acceleratorer.
Da AMD ønskede at få en større del af HPC- og AI-markedet, var de nødt til at udvikle deres egen platform, ROCm (Radeon Open Compute). ROCm er en open source softwareplatform, der gør det muligt at bruge Instinct GPU'er som AI-acceleratorer.
Selvom det ikke nødvendigvis er en del af Instinct-hardwaren, er ROCm fundamental, når det kommer til overlevelsen af Instinct-linjen af GPU'er. Med ROCm, udviklere og forskere får ROCm-værktøjerne, compiler, kernedrivere, en lang række biblioteker og adgang til rammer som TensorFlow og PyTorch til at udvikle med deres foretrækkes AI programmeringssprog.
Hvordan sammenligner Instinct AI-acceleratorer med Radeon GPU AI-acceleratorer?
AMD tilbyder sin Instinct-serie af GPU'er til virksomheder og Radeon GPU'er til almindelige forbrugere. Som diskuteret tidligere, bruger Instinct GPU AMD's CDNA-arkitektur, HBM og Infinity Fabric interconnect. Omvendt bruger Radeon AMDs RDNA-arkitektur, DDR6-hukommelse og Infinity Cache.
Selvom Radeon-serien af AI-acceleratorer er mindre dygtige, fylder den stadig med en eller to AI-acceleratorkerner pr. computerenhed. Det seneste Radeon RX7900 XT GPU har to AI-acceleratorkerner pr. beregningsenhed, hvilket giver mulighed for 103 TFLOP'er med maksimal halvpræcision og 52 TFLOP'er med maksimale enkeltpræcisionsberegninger.
Mens Instinct-serien af GPU'er er bedre egnet til LLM'er og HPC, kan Radeon AI-acceleratorer bruges til at finjustere fortrænede modeller, inferencing og grafikintensive opgaver.
AMD Instinct vs. NVIDIA Tensor
Ifølge en TrendForce undersøgelse, NVIDA har 80 % markedsandel for server-GPU'er, mens AMD kun har 20 %. Denne overvældende succes fra NVIDIA skyldes, at de er et firma, der har specialiseret sig i GPU-design og montering. Dette giver dem mulighed for at designe væsentligt bedre ydende GPU'er uden sidestykke af andre tilbud.
Lad os sammenligne AMDs Instinct MI205X og NVIDIAs H100SXM5 ved hjælp af specifikationer fra AMD's officielle hjemmeside og NVIDIAs eget datablad:
GPU model |
FP64 (TFLOPs) |
FP32 (TFLOPs) |
FP16 (TFLOPs) |
INT8 (TFLOPs) |
---|---|---|---|---|
AMD Instinct MI250X |
30.0 |
60.0 |
1000 |
2000 |
NVIDIA H100SXMS |
47.9 |
95.7 |
383.2 |
383 |
Som du kan se i tabellen, præsterer AMDs MI250X bedre med hensyn til dobbeltpræcision og halvpræcision beregninger, mens NVIDIAs H100SXMS er langt bedre med hensyn til halvpræcisions- og kvartpræcisionsmatrix beregninger. Dette gør AMD's MI250X bedre egnet til HPC, mens NVIDIA's H100SXMS med AI-læring og inferencing.
Fremtiden for AMD's instinktprocessorer
Selvom AMDs seneste tilbud, MI250X, er designet til HPC, er deres kommende MI300 mere AI-træningsorienteret. Denne AI-accelerator er annonceret til at være en APU, der kombinerer GPU og CPU i én pakke. Dette giver MI300 mulighed for at bruge deres CNDA3 Unified Memory APU-arkitektur, hvor GPU'en og CPU'en kun vil bruge én hukommelse, hvilket øger effektiviteten og reducerer prisen.
Selvom AMD ikke vil konkurrere med NVIDIA på AI-acceleratormarkedet i dag, så snart MI300 bliver frigivet og ROCm bliver poleret, er AMD's Instinct-serie måske lige god nok til at snuppe en betydelig del af AI-acceleratormarkedet fra NVIDIA.