12 maja 20264 min czytania

AWS prezentuje architekturę infrastruktury dla treningu i wnioskowania modeli AI

Amazon Web Services opisuje ewolucję skalowania AI i przedstawia warstwową architekturę opartą na GPU Blackwell B200/B300 oraz narzędziach open source.

Źródło zdjęcia: huggingface.co

Poprzedni

Anthropic uruchamia platformę Claude na AWS z pełną integracją

Następny

NotebookLM od Google rewolucjonizuje pracę z dokumentami dzięki AI

Podobne Publikacje

Badania i Nauka

Gdzie w modelach wizyjno-językowych ukrywa się niezawodność — przełomowe badanie mechanizmów VLM

Nowe badanie pokazuje, że mapy uwagi nie przewidują poprawności odpowiedzi VLM. Niezawodność tkwi w ukrytych stanach późnych warstw.

4 min12 maja

Badania i Nauka

Laureat Medalu Fieldsa: ChatGPT 5.5 Pro wykonał badania na poziomie doktorskim w matematyce w niecałe dwie godziny

Timothy Gowers użył ChatGPT 5.5 Pro do rozwiązania otwartych problemów matematycznych. AI samodzielnie wygenerował prace naukowe na poziomie doktorskim bez pomocy człowieka.

Kluczowe wnioski

Skalowanie modeli AI ewoluowało od jednego wymiaru (pre-trening) do trzech: pre-trening, post-trening i obliczenia w czasie testowania (test-time compute).

Wszystkie etapy cyklu życia modeli wymagają podobnej infrastruktury: ściśle sprzężonych akceleratorów, sieci o wysokiej przepustowości i rozproszonego systemu przechowywania danych.

AWS oferuje instancje P5 z GPU NVIDIA H100/H200 oraz nową serię P6 z architekturą Blackwell B200/B300, zapewniając przepustowość od 0,98 do 4,5 PFLOPS dla operacji tensorowych.

Współczesne systemy AI opierają się na warstwowej architekturze open source: od zarządzania zasobami (Slurm, Kubernetes) przez frameworki ML (PyTorch, JAX) po narzędzia monitorowania (Prometheus, Grafana).

Kluczowe znaczenie zyskują orkiestracja zasobów oraz obserwowalnośćsystemów na poziomie aplikacji i sprzętu dla utrzymania zdrowia klastrów na dużą skalę.

Ewolucja praw skalowania w AI

Tradycyjne podejście do rozwoju modeli AI, oparte na pracy Kaplana et al. (2020), wykazywało przewidywalne trendy w postaci praw potęgowych — zwiększanie parametrów modelu, rozmiaru zbioru danych i mocy obliczeniowej przekładało się na lepszą wydajność. To uzasadniało inwestycje w wielkoskalowe akceleratory i infrastrukturę rozproszoną.

Jednak współczesne podejście NVIDIA do „trzech praw skalowania” rozszerza tę perspektywę. Poza pre-treningiem, wydajność można poprawiać poprzez:

Post-trening, obejmujący nadzorowane fine-tuning (SFT) i metody uczenia ze wzmocnieniem (RL)

Obliczenia w czasie testowania, takie jak „długie myślenie”, strategie wyszukiwania i weryfikacji oraz metody multi-sample

Infrastruktura AWS dla modeli AI

AWS dostarcza trzy kluczowe komponenty infrastruktury: obliczenia akcelerowane, sieć i przechowywanie danych. Firma oferuje instancje Amazon EC2 z różnymi generacjami GPU NVIDIA.

Rodzina P5 obejmuje instancje p5.48xlarge z ośmioma GPU H100, p5.4xlarge z pojedynczym H100 oraz warianty p5e.48xlarge/p5en.48xlarge z GPU H200. Nowa seria P6 wprowadza architekturę NVIDIA Blackwell — p6-b200.48xlarge z chipami B200 oraz p6-b300.48xlarge z układami Blackwell Ultra B300.

Kluczowe parametry kolejnych generacji GPU pokazują znaczący postęp:

H100: 0,98 PFLOPS (BF16/FP16), 80 GB HBM3, 3,35 TB/s przepustowości pamięci

H200: 0,98 PFLOPS (BF16/FP16), 141 GB HBM3e, 4,8 TB/s przepustowości pamięci

B200: 2,25 PFLOPS (BF16/FP16), 4,5 PFLOPS (FP8), 180 GB HBM3e, 8 TB/s

B300: 2,25 PFLOPS (BF16/FP16), 4,5 PFLOPS (FP8), 288 GB HBM3e, 8 TB/s

Architektura warstwowa systemów open source

Współczesne systemy AI opierają się na wielowarstwowej architekturze open source. Na poziomie zarządzania zasobami klastra działają systemy takie jak Slurm i Kubernetes. Rozwój modeli i trening rozproszony realizują frameworki PyTorch i JAX. Monitorowanie i wizualizacja — czyli obserwowalnośćsystemów — często wykorzystuje Prometheus do zbierania metryk oraz Grafana do wizualizacji i alertów.

Ta warstwowa struktura pokazuje, jak infrastruktura sprzętowa wspiera orkiestrację zasobów, która z kolei umożliwia działanie frameworków uczenia maszynowego, przy czym obserwowalnośćrozciąga się na wszystkie warstwy systemu.

Dokument AWS stanowi wprowadzenie do szerszej serii materiałów analizujących implementację tej architektury w chmurze, koncentrując się na punktach integracji między komponentami infrastruktury AWS a narzędziami open source używanymi w wielkoskalowym treningu i wnioskowaniu modeli AI.