Amazon Web Services opisuje ewolucję skalowania AI i przedstawia warstwową architekturę opartą na GPU Blackwell B200/B300 oraz narzędziach open source.

Źródło zdjęcia: huggingface.co

Nowe badanie pokazuje, że mapy uwagi nie przewidują poprawności odpowiedzi VLM. Niezawodność tkwi w ukrytych stanach późnych warstw.

Timothy Gowers użył ChatGPT 5.5 Pro do rozwiązania otwartych problemów matematycznych. AI samodzielnie wygenerował prace naukowe na poziomie doktorskim bez pomocy człowieka.
Firma Amazon Web Services (AWS) opublikowała szczegółowy przewodnik dotyczący infrastruktury potrzebnej do trenowania i wnioskowania dużych modeli językowych. Dokument, dostępny na platformie Hugging Face, analizuje ewolucję podejścia do skalowania modeli AI i przedstawia architekturę systemów opartych na otwartym oprogramowaniu.
Autorzy podkreślają, że tradycyjne podejście do skalowania — polegające głównie na zwiększaniu mocy obliczeniowej podczas pre-treningu — zostało rozszerzone o nowe wymiary. Zgodnie z koncepcją NVIDIA dotyczącą „trzech praw skalowania”, wydajność modeli można teraz poprawiać także poprzez post-trening oraz obliczenia w czasie testowania.
Tradycyjne podejście do rozwoju modeli AI, oparte na pracy Kaplana et al. (2020), wykazywało przewidywalne trendy w postaci praw potęgowych — zwiększanie parametrów modelu, rozmiaru zbioru danych i mocy obliczeniowej przekładało się na lepszą wydajność. To uzasadniało inwestycje w wielkoskalowe akceleratory i infrastrukturę rozproszoną.
Jednak współczesne podejście NVIDIA do „trzech praw skalowania” rozszerza tę perspektywę. Poza pre-treningiem, wydajność można poprawiać poprzez:
AWS dostarcza trzy kluczowe komponenty infrastruktury: obliczenia akcelerowane, sieć i przechowywanie danych. Firma oferuje instancje Amazon EC2 z różnymi generacjami GPU NVIDIA.
Rodzina P5 obejmuje instancje p5.48xlarge z ośmioma GPU H100, p5.4xlarge z pojedynczym H100 oraz warianty p5e.48xlarge/p5en.48xlarge z GPU H200. Nowa seria P6 wprowadza architekturę NVIDIA Blackwell — p6-b200.48xlarge z chipami B200 oraz p6-b300.48xlarge z układami Blackwell Ultra B300.
Kluczowe parametry kolejnych generacji GPU pokazują znaczący postęp:
Współczesne systemy AI opierają się na wielowarstwowej architekturze open source. Na poziomie zarządzania zasobami klastra działają systemy takie jak Slurm i Kubernetes. Rozwój modeli i trening rozproszony realizują frameworki PyTorch i JAX. Monitorowanie i wizualizacja — czyli obserwowalnośćsystemów — często wykorzystuje Prometheus do zbierania metryk oraz Grafana do wizualizacji i alertów.
Ta warstwowa struktura pokazuje, jak infrastruktura sprzętowa wspiera orkiestrację zasobów, która z kolei umożliwia działanie frameworków uczenia maszynowego, przy czym obserwowalnośćrozciąga się na wszystkie warstwy systemu.
Dokument AWS stanowi wprowadzenie do szerszej serii materiałów analizujących implementację tej architektury w chmurze, koncentrując się na punktach integracji między komponentami infrastruktury AWS a narzędziami open source używanymi w wielkoskalowym treningu i wnioskowaniu modeli AI.