Nowy protokół sieciowy MRC pozwala połączyć ponad 100 000 GPU w dwóch warstwach i wykrywa awarie w skali mikrosekund zamiast sekund.

Źródło zdjęcia: The Decoder

Daron Acemoglu wskazuje kluczowe trendy w AI: agenty, zatrudnianie ekonomistów przez firmy AI i rozwój aplikacji. Jego prognozy wciąż się sprawdzają.
System MachinaCheck skraca analizę wykonalności CNC z godzin do 30 sekund, działając lokalnie na AMD MI300X bez ryzyka utraty poufnych danych.
OpenAI we współpracy z AMD, Broadcom, Intel, Microsoft i NVIDIA opracowało nowy protokół sieciowy MRC (Multipath Reliable Connection), który ma rozwiązać problemy z wąskimi gardłami w superkomputerach AI. Protokół został już wdrożony w największych systemach OpenAI używanych do trenowania modeli frontowych, zgodnie z informacjami opublikowanymi przez firmę.
MRC ma na celu przyspieszenie, zwiększenie przewidywalności i odporności transferów danych między procesorami graficznymi w dużych superkomputerach AI — kluczowego elementu trenowania zaawansowanych modeli sztucznej inteligencji.
Tradycyjne protokoły sieciowe wysyłają każdy transfer przez pojedynczą ścieżkę sieciową, co może prowadzić do przeciążeń i spowolnień krytycznych dla synchronicznego trenowania AI. MRC radykalnie zmienia to podejście, rozprowadzając pakiety równocześnie po setkach dostępnych ścieżek.
Ta wielościeżkowa architektura nie tylko redukuje przeciążenia, ale również znacząco zwiększa odporność systemu na awarie. Gdy konwencjonalne sieci potrzebują sekund lub nawet dziesiątek sekund na ustabilizowanie się po awariach, MRC może wykryć problemy i przekierować ruch na poziomie mikrosekund.
MRC został już wdrożony w największych superkomputerach OpenAI, w tym w lokalizacji Oracle Cloud Infrastructure w Abilene w Teksasie oraz w superkomputerach Microsoft Fairwater. Specyfikacja MRC została opublikowana przez Open Compute Project (OCP) wraz z towarzyszącym artykułem naukowym.
Projekt wielopłaszczyznowej sieci MRC oferuje także znaczące korzyści ekonomiczne. System może obsłużyć ponad 100 000 GPU używając tylko dwóch warstw przełączników Ethernet, co zmniejsza zużycie energii, liczbę komponentów i całkowite koszty sieci w porównaniu do tradycyjnych rozwiązań wymagających trzech lub czterech warstw.
Rozwój MRC pokazuje, jak współpraca między kluczowymi graczami w branży technologicznej może prowadzić do przełomowych rozwiązań infrastrukturalnych, które bezpośrednio wspierają postęp w dziedzinie sztucznej inteligencji.