Nvidia GPU'er er nået langt, ikke kun med hensyn til spilydelse, men også i andre applikationer, især kunstig intelligens og maskinlæring. De to hovedfaktorer, der er ansvarlige for Nvidias GPU-ydeevne, er CUDA- og Tensor-kernerne, der findes på stort set alle moderne Nvidia GPU'er, du kan købe.

Men hvad gør disse kerner præcist, og hvis de begge bruges i kunstig intelligens og maskinlæringsapplikationer, hvordan er de så anderledes?

Hvad er CUDA-kerner, og hvad bruges de til?

CUDA står for Compute Unified Device Architecture, som ikke gør meget for at forklare deres tilstedeværelse i en GPU. Disse kerner blev introduceret i Nvidia GPU-serien i 2014 Maxwell-arkitekturen og har specialiseret sig i parallel behandling.

De minder ret meget om CPU-kerner med hensyn til deres funktion, men er bedre til at håndtere visse opgaver, herunder kryptografiske hashes, fysikmotorer, datavidenskabsrelaterede projekter og endda spil udvikling.

Billedkredit: Nvidia

Mens vi allerede har dækket hvordan CUDA-kerner påvirker din pc's spilydelse

instagram viewer
, de er lige så hjælpsomme til at knuse tal. Selvom selv de mest kraftfulde CPU'er har tocifrede kerner, kommer Nvidia GPU'er med flere tusinde CUDA-kerner, hvilket gør dem meget hurtigere ved numeriske arbejdsbelastninger. Derudover, da de udfører disse beregninger parallelt, får du meget hurtigere hastigheder med CUDA-kerner.

CUDA-kerner er hurtigere end almindelige CPU-kerner, når det kommer til knasende tal, men de er stadig ikke den ideelle løsning. Det er fordi de aldrig var beregnet til at blive brugt på den måde. CUDA-kerner blev specialbygget til grafisk behandling og for at gøre Nvidia GPU'er mere dygtige til spilydelse.

Hvad er tensorkerner, og hvad bruges de til?

Da GPU'er begyndte at blive brugt til kunstig intelligens og maskinlærings-arbejdsbelastninger, introducerede Nvidia Tensor-kerner i Volta-arkitekturen til sine datacenter-GPU'er fra 2017.

Det tog dog indtil Nvidia Turing-arkitekturen (RTX 20-Series GPU'er), før disse kerner kom til forbruger-GPU'er. Husk at mens GTX 16-seriens kort også er baseret på Turing-arkitekturen, inkluderer de ikke nogen ray tracing eller Tensor kerner.

Mens CUDA-kerner i bedste fald var tilstrækkelige til beregningsmæssige arbejdsbelastninger, øgede Tensor-kerner ante ved at være betydeligt hurtigere. Mens CUDA-kerner kun kan udføre én operation pr. clock-cyklus, kan Tensor-kerner håndtere flere operationer, hvilket giver dem et utroligt ydelsesboost. Grundlæggende er alt, hvad Tensor-kerner gør, at øge hastigheden af ​​matrixmultiplikation.

Dette løft i beregningshastighed kommer på bekostning af nøjagtighed, hvor CUDA-kerner er betydeligt mere nøjagtige. Når det er sagt, når det kommer til træning af maskinlæringsmodeller, er Tensor-kerner langt mere effektive med hensyn til beregningshastighed og samlede omkostninger; derfor negligeres tabet i nøjagtighed ofte.

Hvordan påvirker Tensor- og CUDA-kerner GPU-ydeevnen?

Som du sikkert kan gætte nu, mens CUDA- og Tensor-kerner kan håndtere de samme arbejdsbelastninger, er de begge specialiserede kerner til henholdsvis grafikgengivelse og numeriske arbejdsbelastninger.

Dette betyder, at afhængigt af den bruger, som en bestemt GPU er målrettet mod, vil den have et forskelligt antal kerner. Hvis vi for eksempel betragter RTX 4090, Nvidias nyeste og bedste forbruger-vendte gaming GPU, får du langt flere CUDA-kerner end Tensor-kerner. 16.384 CUDA-kerner til 512 Tensor-kerner, for at være specifik.

Til sammenligning har Nvidia L40 GPU til datacentre, baseret på den samme Ada Lovelace-arkitektur som RTX 4090, 18.176 CUDA-kerner og 568 Tensor-kerner. Dette virker måske ikke som den store forskel, men det kan massivt påvirke ydeevnen af ​​disse GPU'er.

Med hensyn til teoretisk ydeevne har L40 90,52 TFlops FP16 og FP32 ydeevne samt 1.414 GFlops FP64 ydeevne. Dette er et massivt ydelsesboost sammenlignet med RTX 4090's 82,58 TFlops af FP16 og FP32 ydeevne og 1.290 GFlops af FP64 ydeevne.

Medmindre du er velbevandret med GPU-numeriske ydeevnetal, betyder Nvidia GPU-floating point-ydeevnetallene ovenfor muligvis ikke meget for dig. Kort fortalt viser de dog, at L40 er meget hurtigere end RTX 4090, når det kommer til numeriske beregninger - dem, der er nødvendige for kunstig intelligens og maskinlæringsbaserede arbejdsbelastninger.

Ydeevneforbedringen bliver så meget desto mere imponerende, når man tænker på strømforbruget af de to GPU'er. RTX 4090 har en vurderet TGP (ikke at forveksle med TDP, der er en lille forskel) på 450W, mens L40 kun er normeret til 300W.

Begge disse GPU'er vil køre spil og træne din maskinlæringsmodel helt fint. RTX 4090 vil dog være bedre til at køre spil, og L40 vil være bedre til at træne machine learning-modeller.

CUDA Cores vs. Tensorkerner: Hvad er vigtigere?

Begge kerner er lige vigtige, uanset om du køber din GPU til gaming eller lægger den i et datacenterrack. Nvidias forbrugervendte gaming-GPU'er bruger en masse AI-funktioner (især DLSS), og det kan være praktisk at have Tensor-kerner ombord.

Hvad angår datacenter-GPU'er, arbejder CUDA- og Tensor-kerner i tandem det meste af tiden alligevel, så du får begge, uanset hvilken GPU du vælger. I stedet for at fokusere på en bestemt type kerne i din GPU, bør du fokusere mere på, hvad grafikkortet gør som helhed, og den type bruger, det er beregnet til.

CUDA-kerner specialiserer sig i at håndtere grafiske arbejdsbelastninger, mens Tensor-kerner er bedre til numeriske. De arbejder sammen og er til en vis grad udskiftelige, men de håndterer deres egne specialiseringer, hvorfor de eksisterer i første omgang.

Forskellige GPU'er specialiserer sig i forskellige aspekter. RTX 4090 vil nemt knuse ethvert spil, du kaster efter det, mens RTX 4060 kun kan håndtere 1080p-spil. Hvis du ikke spiller ved at bruge din GPU og kun har brug for den til at knuse tal eller træne neurale netværk, er en A-Series datacenter GPU som A100 eller endda L40 dit bedste bud.

Dine GPU-kerner betyder noget

Flere GPU-kerner vil give dig bedre generel ydeevne, da din GPU vil være mere alsidig og har dedikerede ressourcer til at håndtere forskellige opgaver. Men blindt at få en GPU med det højeste antal kerner er ikke den bedste beslutning. Brug et øjeblik på omhyggeligt at overveje din use case, tag et kig på GPU'ens muligheder som helhed, og tag derefter dit valg.