7 maja 20264 min czytania

NVIDIA Spectrum-X wprowadza protokół MRC dla gigantycznych fabryk AI

OpenAI, Microsoft i Oracle wdrożyły nowy protokół MRC od NVIDIA, który automatycznie wykrywa awarie sieci w mikrosekundach i przekierowuje ruch między tysiącami GPU.

Źródło zdjęcia: NVIDIA Blog

Poprzedni

vLLM V1: jak ServiceNow rozwiązało problemy migracji w uczeniu ze wzmocnieniem

Następny

Parloa buduje agentów obsługi klienta opartych na GPT-5.4

Podobne Publikacje

Etyka i Bezpieczeństwo

Sztuczna inteligencja do rozpoznawania emocji wkracza do firm mimo wątpliwych podstaw naukowych

Firmy coraz częściej używają AI do monitorowania emocji pracowników, choć systemy wykazują bias rasowy i opierają się na kwestionowanej nauce.

4 min10 maja

Poradniki

Paraliż zadaniowy i sztuczna inteligencja — osobiste doświadczenia z Claude

Szczery wpis o tym, jak AI pomaga przełamać blokady w realizacji projektów, ale tworzy ryzyko uzależnienia od szybkich rezultatów i dopaminowych pętli.

4 min

Kluczowe wnioski

OpenAI, Microsoft i Oracle wdrożyły protokół MRC w swoich centrach danych AI, co pozwoliło im uniknąć typowych spowolnień sieciowych podczas treningu modeli.

Technologia wykrywa awarie ścieżek sieciowych w mikrosekundach i automatycznie przekierowuje ruch sprzętowo, co kluczowe dla synchronizacji tysięcy GPU.

MRC został udostępniony jako otwarta specyfikacja przez Open Compute Project po udanych testach produkcyjnych.

Rozwiązanie wspiera wielopłaszczyznowe architektury sieciowe, umożliwiając skalowanie do setek tysięcy GPU przy zachowaniu niskich opóźnień.

NVIDIA współpracowała przy rozwoju MRC z AMD, Broadcom, Intel, Microsoft i OpenAI.

Wdrożenia w gigantycznych fabrykach AI

Sachin Katti, szef działu obliczeń przemysłowych w OpenAI, potwierdził sukces wdrożenia: „Zastosowanie MRC w generacji Blackwell było bardzo udane i było możliwe dzięki silnej współpracy z NVIDIA. Podejście end-to-end MRC pozwoliło nam uniknąć większości typowych spowolnień i przerwań związanych z siecią oraz utrzymać wydajność przełomowych przebiegów treningowych na dużą skalę.”

Microsoft Fairwater i centrum danych Oracle Cloud Infrastructure (OCI) Abilene — dwie z największych fabryk AI zbudowanych specjalnie do treningu i wdrażania zaawansowanych modeli językowych — opierają się na MRC w zakresie wydajności, skali i efektywności.

Techniczne innowacje protokołu MRC

MRC zapewnia wysokie wykorzystanie GPU poprzez równoważenie obciążenia ruchu we wszystkich dostępnych ścieżkach, umożliwiając każdemu GPU uzyskanie potrzebnej przepustowości podczas całego przebiegu treningowego. Protokół utrzymuje wysoką przepustowość nawet przy przeciążeniach, dynamicznie unikając przeciążonych ścieżek w czasie rzeczywistym.

Kluczową innowacją jest technologia obejścia awarii, która może wykryć usterkę ścieżki sieciowej i automatycznie przekierować ruch sprzętowo w ciągu zaledwie mikrosekund. Ma to kluczowe znaczenie dla klastrów treningowych AI, gdzie tysiące GPU muszą pozostać zsynchronizowane — nawet krótka przerwa w sieci może spowolnić lub przerwać całe zadanie treningowe.

Otwarte standardy i przyszłość

Po udanych testach produkcyjnych na sprzęcie NVIDIA Spectrum-X Ethernet, MRC został udostępniony jako otwarta specyfikacja przez Open Compute Project. Pokazuje to moc platformy Spectrum-X Ethernet: specjalnie zbudowany sprzęt, głęboka telemetria i inteligentne sterowanie strukturą współpracują ze sobą, aby wprowadzić nowy protokół od koncepcji do produkcji AI na gigantyczną skalę.

Spectrum-X Ethernet oferuje klientom wybór modeli transportu RDMA, a protokoły działają natywnie na kartach sieciowych NVIDIA ConnectX SuperNIC i przełącznikach Spectrum-X Ethernet, wspierając wielopłaszczyznowe projekty sieciowe na gigantyczną skalę.