Przejdź do treści

Serwery zoptymalizowane pod AI

Spis treści

Współczesne systemy AI – zwłaszcza duże modele językowe (LLM) czy multimodalne – wymagają ogromnych zasobów obliczeniowych i pamięciowych. Z tego powodu powstają serwery zaprojektowane specjalnie pod kątem uczenia maszynowego, łączące potężne GPU i inne akceleratory z wydajną pamięcią i łączami. Istotnym wąskim gardłem są przepustowość pamięci i sieci międzyprocesorowych. Tradycyjne architektury CPU-GPU muszą tu ustąpić miejsca układom wielkopłytkowym z pamięcią HBM oraz szybkimi łączami NVLink/CXL. Wprowadzenie NPUs (dedykowanych akceleratorów neuronowych) i nowych standardów (PCIe 5.0, NVLink, CXL) pozwala przełamać dotychczasowe ograniczenia, oferując skalowalność i efektywność wymagane przez AI w centrach danych.

GPU i pamięć HBM w systemach AI

Architektura sprzętowa serwerów AI opiera się przede wszystkim na specjalizowanych GPU. Najnowsze procesory graficzne, takie jak NVIDIA H100 (architektura Hopper) czy AMD Instinct MI300X, integrują tysiące rdzeni tensorowych przystosowanych do obliczeń macierzowych w niskiej precyzji.

NVIDIA H100 w wersji SXM5 dysponuje 80-160 GB pamięci HBM3 o przepustowości przekraczającej 3 TB/s. Dla porównania, akcelerator AMD MI300X posiada aż 192 GB HBM3 osiągając około 5,3 TB/s przepustowości pamięci – to ponad dwukrotnie większa pojemność i o 58 proc. wyższa przepustowość niż w H100. W praktyce oznacza to, że systemy z wieloma GPU mogą operować na ogromnych zbiorach danych bez odwołań do wolniejszej pamięci głównej.

Na przykład osiem kart H100 w jednym serwerze (podłączonych przez NVLink) może dostarczyć nawet ~32 petaFLOps (FP8) mocy obliczeniowej. Takie konfiguracje (np. Supermicro z 8×H100) to istotne budulce infrastruktury AI w centrach danych.

Przykładowo:

  • NVIDIA H100 (Hopper): 80–160 GB HBM3, ≈3 TB/s BW, 4. generacji Tensor Cores, dedykowany silnik Transformer umożliwia ~4× szybsze trenowanie LLM (np. GPT-3) w stosunku do A100.
  • AMD Instinct MI300X: 192 GB HBM3, ≈5,3 TB/s BW, architektura CDNA3 (chipletowa) posiada 2× więcej pamięci niż H100 i znacznie większą przepustowość, dając w zadaniach inferencyjnych LLM istotną przewagę. W testach MLPerf system z 8×MI300X osiągnął niemal taką samą wydajność na Llama2-70B co 8×H100.
  • W ofertach Supermicro spotyka się serwery z kartami HGX-Instinct (MI300X) i HGX-Hopper (H100/H200). Supermicro przewiduje też konfiguracje „APU” – np. 4 układy AMD Instinct MI300A z zintegrowanymi CPU i 512 GB HBM3 (4×128 GB) na platformie wieloprocesorowej.

Pamięć HBM3 o wysokiej przepustowości eliminuje wąskie gardła pamięciowe – systemy GPU obsługują dane modelu i aktywacje bez ciągłych transferów do wolniejszej pamięci RAM. Na przykład serwery z H100 obsługują PCIe Gen5 i posiadają 128 GB/s szyny dwukierunkowej, ale to właśnie HBM3 o wieloterabajtowej przepustowości decyduje o skali możliwych obliczeń.

Wysoka wydajność wielu GPU w jednym serwerze wymaga szybkich łączy wewnętrznych. NVLink – własnościowy interkonekt NVIDII – oferuje pasmo rzędu 900 GB/s między procesorami H100. Dzięki technologii NVSwitch wiele kart GPU (nawet 8-10) może być połączone w pełną siatkę. Przykładowo układ NVLink Switch System w 8×H100 dostarcza około 57,6 TB/s sumarycznej przepustowości GPU-to-GPU. Oznacza to niemalże jednorodną pamięć rozdzieloną między wszystkie akceleratory i optymalną współpracę przy treningu bardzo dużych modeli.

Standard PCIe 5.0 (32 GT/s) nadal jest podstawą komunikacji host-akcelerator. 16 linii PCIe5 umożliwia do 128 GB/s łącznej przepustowości bi-kierunkowej. Jest to znacznie mniej niż NVLink – według analiz PCIe x16 zapewnia ~64 GB/s na kierunek, czyli 7× mniej niż NVLink. Mimo to PCIe 5.0 wprowadza wsparcie dla najnowszych GPU (np. H100) oraz dla akceleratorów FPGA czy DPUs. Obecnie standard PCIe pozostaje uniwersalnym „interfejsem I/O”, podczas gdy NVLink służy do ultraszybkiego łączenia GPU ze sobą lub z dedykowanymi procesorami (np. CPU Grace u NVIDII).

Compute Express Link (CXL) to nowy, otwarty protokół bazujący na warstwie fizycznej PCIe, zaprojektowany dla pełnej koherencji pamięci między CPU, GPU i innymi urządzeniami. CXL 3.0 umożliwia budowanie wspólnej puli pamięci dla wielu węzłów („memory pooling”) i spójną współpracę heterogenicznych zasobów. W architekturach AI oznacza to możliwość udostępniania dużych obszarów RAM bez dublowania między węzłami, przyspieszając trening LLM i inferencję wielo-gpu. Obecnie jednak wdrożenia CXL w sprzęcie AI są ograniczone – NVIDIA nie wprowadziła go do swoich GPU, a AMD obsługuje CXL tylko w niektórych APU (MI300A). Mimo to CXL wyznacza kierunek „bezserwerowych” układów AI – cała szafa może działać jako zunifikowany fabric pamięci, z czasem będąc istotnym dla bardzo dużych klastrów GPU.

W skali klastra międzysieciowo dominują protokoły HPC:

  • InfiniBand NDR (400 Gb/s) i
  • wysokowydajne Ethernety (do 800 Gb/s).

Na przykład sieć w architekturze NVIDIA DGX SuperPOD wykorzystuje przełączniki InfiniBand NDR z łączną prędkością 400 Gb/s na port, a również opcjonalnie wnętrze z 800 GbE (NVIDIA Spectrum-X SN5600) dla dostępu do szybkich magazynów danych. Tego typu łącza zapewniają minimalne opóźnienia i skalują setki węzłów GPU – jest to niezbędne do szkoleń superdużych modeli.

Akceleratory NPU i heterogeniczna architektura

Obok GPU pojawiają się specjalizowane układy NPU (Neural Processing Units) – procesory zaprojektowane od podstaw do przyspieszania sieci neuronowych. NPU to zazwyczaj struktury typu macierzowego lub systoliczne zoptymalizowane pod obliczenia niskoprecyzyjne (np. 8-bitowe) i przetwarzanie równoległe. W praktyce NPU mogą wykonywać operacje dot-prod, konwolucje czy mnożenia macierzy w jednym cyklu, co tradycyjnemu CPU czy GPU zajmowałoby tysiące rozkazów. Dzięki temu NPU często osiągają znacznie lepszą efektywność energetyczną – niektóre pomiary wskazują nawet 100× wyższą wydajność przy tym samym poborze mocy w porównaniu do GPU.

NPUs są zwykle integrowane w heterogenicznych systemach. Mogą występować jako:

  • osobne karty w serwerach (np. Google TPU, Intel Habana Gaudi, Amazon Inferentia) lub
  • wbudowane w układy SoC (np. Apple Neural Engine w M-series, Qualcomm NPU).

W centrach danych układy te przyspieszają zadania inferencyjne i przetwarzanie danych w czasie rzeczywistym, odciążając GPU i CPU. Pozwalają również zastosować bardzo niską precyzję (np. INT8/FP8) z minimalną utratą dokładności, dramatycznie zmniejszając wymiar obliczeń.

W efekcie powstają architektury „CPU–GPU–NPU”, gdzie CPU pełni rolę koordynatora, GPU wykonuje masowe obliczenia macierzy (trening), a NPU z założenia wykonuje wyspecjalizowane operacje (np. warstwy sieci, kwantyzacje, kompresje). Przykładem mogą być układy takie jak Intel’s Ponte Vecchio (z dodatkowymi blokami dla Tensor), czy przyszłe kombinacje ARM+NPU. AMD pokazała zresztą koncepcję hybrydy CPU+GPU w jednym chipie (APU) np. Instinct MI300A integruje cztery GPU i CPU EPYC w jednej obudowie z 512 GB HBM3.

W takich heterogenicznych systemach NPU poprawia skalowalność i obniża zużycie energii. GPU realizują równoległe mnożenia i dodawania, natomiast NPU mogą przejmować dodatkowe warstwy sieci lub zadania przetwarzania wizyjnego w przyjaznej energooszczędnej formie.

Przykłady serwerów AI i ich zastosowania

Na rynku dostępne są zarówno wyspecjalizowane systemy AI jak i uniwersalne serwery GPU. Do czołowych rozwiązań należą systemy NVIDIA DGX. DGX A100 czy DGX H100 to skalowalne „skrzynie” zawierające 8 kart NVIDIA GPU połączonych NVSwitch, zoptymalizowane do treningu. Najnowszy DGX B200 (z architekturą Blackwell) potrafi osiągnąć 72 petaFLOPS dla treningu FP8 i 144 petaFLOPS dla inferencji FP4, dysponując przy tym 1440 GB HBM3 pamięci (8×180 GB). Takie systemy buduje się w klastrach SuperPOD z tysiącami GPU, stosując topologie InfiniBand.

Również producenci sprzętu serwerowego oferują szeroką gamę rozwiązań. Na przykład Supermicro wprowadziła serię High Density GPU Servers. Model SYS-821GE-TNHR to 4U chassis mieszczące 8 kart NVIDIA H100 (z chłodzeniem cieczą). Jest on przeznaczony do największych obciążeń AI, zapewniając zwarte łącza NVLink między GPU. Z kolei model AS-4125GS-TNRT1 (również 4U) umożliwia montaż nawet 10 kart NVIDIA H100 lub AMD Instinct MI200, czyniąc go potężną platformą dla AI/ML. Możliwe są też konfiguracje z NVIDIA A100 czy układami AMD Instinct (MI250/Mi210) na bazie procesorów AMD EPYC. Przykładowo płyta serwera obsługuje procesory EPYC 9004 i ma 24 sloty RAM dla 3 TB DDR5, łącznie z wieloma GPU dając ogromne możliwości obliczeniowe.

W różnych klasach zastosowań spotyka się odmienne rozwiązania. Do szkoleń gigantycznych LLM stosuje się mocarne klastry GPU z chłodzeniem wodnym i wydajną infrastrukturą sieciową (Przykłady: NVIDIA DGX SuperPOD, projekty AISupercomputer). W inferencji big data coraz większą rolę odgrywają wyspecjalizowane karty inferencyjne (np. NVIDIA L4, TensorRT-optimized GPUs, albo chmury z instancjami Inferentia/TPU). Dla edge AI popularne są niskomocowe akceleratory – na przykład Google Edge TPU czy procesory Qualcomm z wbudowanym NPU – które umożliwiają lokalne wnioski AI w urządzeniach brzegowych.

Podsumowanie

Serwery zoptymalizowane pod sztuczną inteligencję to obecnie wysoce zróżnicowane maszyny łączące wielordzeniowe GPU, akceleratory NPU, ultraszybką pamięć HBM oraz zaawansowane interkonekty (NVLink, PCIe5, CXL). Przykładowo systemy NVIDIA DGX z 8×H100 oferują setki PFLOPS mocy obliczeniowej przy łącznej pamięci 640-1280 GB HBM3 i wewnętrznym pasmem dziesiątek TB/s. Z kolei układy AMD MI300X z 192 GB HBM3 dostarczają ponad 5 TB/s przepustowości pamięci. Wszystkie te komponenty umożliwiają efektywne trenowanie największych modeli (LLM) czy przyspieszają złożone zadania wnioskowania.

Ponadto rośnie popularność specjalistycznych akceleratorów (NPUs), które wspomagają GPU w zadaniach AI i znacząco poprawiają efektywność energetyczną. Przyszłość infrastruktury AI to jeszcze głębsza heterogeniczność – łączenie CPU, GPU i NPU w jednym sofcie czy poprzez wysokoprzepustowe interkonekty oraz tworzenie składanych, „kompozytowych” centrów danych z dzieloną pamięcią (architektura CXL). Jednak już dziś są firmy (takie jak np. Bizserver), które oferują serwery z wieloma GPU (A100, H100, Instinct) przygotowane pod AI, a instytucje badawcze i przedsiębiorstwa budują klastry z tysiącami takich akceleratorów. W ten sposób powstają wyspecjalizowane platformy gwarantujące wymaganą skalę obliczeń – od wielkich superkomputerów AI po wyspecjalizowane węzły brzegowe – co napędza dalszy rozwój sztucznej inteligencji.

Źródło: artykuł partnera

Udostępnij:

lub:

Podobne artykuły

fot. PxHere/ CC0

Schematy klawiaturowe jako hasła: Niebezpieczny trend w Polsce

Fot. Pixabay/ CC0

Prof. Duch: boty AI jednoczą się i porozumiewają bez udziału ludzi

xsztucznainteligencjapublicdomainpicturescc0.pagespeed.ic.fFUe2DiPla

Ekspertka: sztuczna inteligencja nie może zastąpić konsultacji lekarskich

Wyróżnione artykuły

Popularne artykuły