OpenAI, Microsoft i Oracle wdrożyły nowy protokół MRC od NVIDIA, który automatycznie wykrywa awarie sieci w mikrosekundach i przekierowuje ruch między tysiącami GPU.

Źródło zdjęcia: NVIDIA Blog

Firmy coraz częściej używają AI do monitorowania emocji pracowników, choć systemy wykazują bias rasowy i opierają się na kwestionowanej nauce.
Szczery wpis o tym, jak AI pomaga przełamać blokady w realizacji projektów, ale tworzy ryzyko uzależnienia od szybkich rezultatów i dopaminowych pętli.
NVIDIA wprowadza nowy standard sieciowy dla gigantycznych fabryk AI z protokołem MRC (Multipath Reliable Connection), który już wdrożyli OpenAI, Microsoft i Oracle. Technologia Spectrum-X Ethernet ma umożliwić wydajną komunikację między tysiącami GPU podczas treningu największych modeli sztucznej inteligencji.
Protokół MRC działa jak inteligentny system zarządzania ruchem — zamiast pojedynczej drogi łączy wiele ścieżek sieciowych, automatycznie omijając przeciążenia i awarie w czasie rzeczywistym. Rozwiązanie zostało już przetestowane w produkcji przez największych graczy rynku AI.
Sachin Katti, szef działu obliczeń przemysłowych w OpenAI, potwierdził sukces wdrożenia: „Zastosowanie MRC w generacji Blackwell było bardzo udane i było możliwe dzięki silnej współpracy z NVIDIA. Podejście end-to-end MRC pozwoliło nam uniknąć większości typowych spowolnień i przerwań związanych z siecią oraz utrzymać wydajność przełomowych przebiegów treningowych na dużą skalę.”
Microsoft Fairwater i centrum danych Oracle Cloud Infrastructure (OCI) Abilene — dwie z największych fabryk AI zbudowanych specjalnie do treningu i wdrażania zaawansowanych modeli językowych — opierają się na MRC w zakresie wydajności, skali i efektywności.
MRC zapewnia wysokie wykorzystanie GPU poprzez równoważenie obciążenia ruchu we wszystkich dostępnych ścieżkach, umożliwiając każdemu GPU uzyskanie potrzebnej przepustowości podczas całego przebiegu treningowego. Protokół utrzymuje wysoką przepustowość nawet przy przeciążeniach, dynamicznie unikając przeciążonych ścieżek w czasie rzeczywistym.
Kluczową innowacją jest technologia obejścia awarii, która może wykryć usterkę ścieżki sieciowej i automatycznie przekierować ruch sprzętowo w ciągu zaledwie mikrosekund. Ma to kluczowe znaczenie dla klastrów treningowych AI, gdzie tysiące GPU muszą pozostać zsynchronizowane — nawet krótka przerwa w sieci może spowolnić lub przerwać całe zadanie treningowe.
Po udanych testach produkcyjnych na sprzęcie NVIDIA Spectrum-X Ethernet, MRC został udostępniony jako otwarta specyfikacja przez Open Compute Project. Pokazuje to moc platformy Spectrum-X Ethernet: specjalnie zbudowany sprzęt, głęboka telemetria i inteligentne sterowanie strukturą współpracują ze sobą, aby wprowadzić nowy protokół od koncepcji do produkcji AI na gigantyczną skalę.
Spectrum-X Ethernet oferuje klientom wybór modeli transportu RDMA, a protokoły działają natywnie na kartach sieciowych NVIDIA ConnectX SuperNIC i przełącznikach Spectrum-X Ethernet, wspierając wielopłaszczyznowe projekty sieciowe na gigantyczną skalę.