7 maja 20263 min czytania

OpenAI z gigantami tech opracowało protokół MRC do usuwania wąskich gardeł w superkomputerach AI

Nowy protokół sieciowy MRC pozwala połączyć ponad 100 000 GPU w dwóch warstwach i wykrywa awarie w skali mikrosekund zamiast sekund.

Źródło zdjęcia: The Decoder

Poprzedni

LCM: nowa architektura pamięci AI przewyższa Claude Code w długich kontekstach

Następny

Nowa metoda RETD rozwiązuje kluczowy problem w uczeniu ze wzmocnieniem off-policy

Podobne Publikacje

Biznes i Rynek

Trzy obszary AI do obserwowania według laureata Nagrody Nobla w ekonomii

Daron Acemoglu wskazuje kluczowe trendy w AI: agenty, zatrudnianie ekonomistów przez firmy AI i rozwój aplikacji. Jego prognozy wciąż się sprawdzają.

4 min11 maja

Narzędzia i Aplikacje

MachinaCheck: system AI do analizy wykonalności części CNC na AMD MI300X

System MachinaCheck skraca analizę wykonalności CNC z godzin do 30 sekund, działając lokalnie na AMD MI300X bez ryzyka utraty poufnych danych.

4 min

Kluczowe wnioski

MRC rozprowadza pakiety danych jednocześnie po setkach ścieżek sieciowych, zmniejszając przeciążenie w rdzeniu sieci.

Protokół wykrywa awarie ścieżek, połączeń lub przełączników i przekierowuje ruch w skali mikrosekund, podczas gdy konwencjonalne sieci potrzebują sekund lub dziesiątek sekund na stabilizację.

System może połączyć ponad 100 000 GPU używając tylko dwóch warstw przełączników Ethernet zamiast trzech lub czterech wymaganych przez tradycyjne sieci 800 Gb/s.

MRC jest już wdrożony we wszystkich największych superkomputerach NVIDIA GB200 OpenAI, używanych do trenowania modeli frontowych.

Podczas trenowania ostatniego modelu frontowego dla ChatGPT i Codex, OpenAI musiało zrestartować cztery przełączniki tier-1, ale dzięki MRC nie wymagało to koordynacji z zespołami prowadzącymi zadania treningowe.

Architektura wielościeżkowa jako rozwiązanie wąskich gardeł

Tradycyjne protokoły sieciowe wysyłają każdy transfer przez pojedynczą ścieżkę sieciową, co może prowadzić do przeciążeń i spowolnień krytycznych dla synchronicznego trenowania AI. MRC radykalnie zmienia to podejście, rozprowadzając pakiety równocześnie po setkach dostępnych ścieżek.

Ta wielościeżkowa architektura nie tylko redukuje przeciążenia, ale również znacząco zwiększa odporność systemu na awarie. Gdy konwencjonalne sieci potrzebują sekund lub nawet dziesiątek sekund na ustabilizowanie się po awariach, MRC może wykryć problemy i przekierować ruch na poziomie mikrosekund.

Wdrożenie w praktyce i korzyści ekonomiczne

MRC został już wdrożony w największych superkomputerach OpenAI, w tym w lokalizacji Oracle Cloud Infrastructure w Abilene w Teksasie oraz w superkomputerach Microsoft Fairwater. Specyfikacja MRC została opublikowana przez Open Compute Project (OCP) wraz z towarzyszącym artykułem naukowym.

Projekt wielopłaszczyznowej sieci MRC oferuje także znaczące korzyści ekonomiczne. System może obsłużyć ponad 100 000 GPU używając tylko dwóch warstw przełączników Ethernet, co zmniejsza zużycie energii, liczbę komponentów i całkowite koszty sieci w porównaniu do tradycyjnych rozwiązań wymagających trzech lub czterech warstw.

Rozwój MRC pokazuje, jak współpraca między kluczowymi graczami w branży technologicznej może prowadzić do przełomowych rozwiązań infrastrukturalnych, które bezpośrednio wspierają postęp w dziedzinie sztucznej inteligencji.