Allen Institute for AI przedstawił EMO — model MoE pozwalający używać jedynie 12,5% ekspertów przy zachowaniu pełnej wydajności dla konkretnych zadań.

Źródło zdjęcia: huggingface.co

Amazon Web Services opisuje ewolucję skalowania AI i przedstawia warstwową architekturę opartą na GPU Blackwell B200/B300 oraz narzędziach open source.

Chiński model Ernie 5.1 osiąga wyniki konkurencyjne z najlepszymi AI przy 94% niższych kosztach trenowania. Wykorzystuje innowacyjny pipeline.
Allen Institute for AI przedstawił EMO — nowy model mixture-of-experts (MoE), który został wstępnie wytrenowany w sposób umożliwiający emergentną modularność. W przeciwieństwie do standardowych modeli MoE, EMO pozwala używać jedynie małego podzbioru ekspertów (12,5% całości) dla konkretnego zadania przy zachowaniu niemal pełnej wydajności modelu. Szczegóły techniczne zostały opisane w raporcie technicznym opublikowanym przez zespół.
Tradycyjne duże modele językowe działają jako monolityczne systemy — jeden model jest inicjalizowany, trenowany, dostrajany i wdrażany jako zunifikowana całość. Jednak aplikacje często potrzebują jedynie podzbioru możliwości, takich jak generowanie kodu, rozumowanie matematyczne czy wiedza domenowa. Gdy modele osiągają biliony parametrów, używanie pełnego modelu staje się niepraktyczne i generuje niepotrzebne koszty obliczeniowe.
Modele MoE wydają się naturalnym rozwiązaniem tego problemu. Zamiast używać jednej dużej sieci feedforward w każdej warstwie, MoE zawierają wiele mniejszych sieci zwanych ekspertami i aktywują jedynie mały podzbiór dla każdego tokenu wejściowego. W teorii zadanie wymagające tylko jednej możliwości mogłoby załadować tylko odpowiednich ekspertów.
W praktyce jednak istniejące modele MoE wciąż potrzebują pełnego modelu do dobrego działania. Nawet w obrębie pojedynczego wejścia różne tokeny często aktywują różnych ekspertów, więc zadanie może skończyć używaniem wszystkich ekspertów podczas generowania. Dzieje się tak częściowo dlatego, że eksperci w standardowych modelach MoE często specjalizują się w wzorcach leksykalnych niskiego poziomu, takich jak przyimki czy interpunkcja, a nie w domenach czy możliwościach wyższego poziomu.
Kluczową obserwacją zespołu było to, że tokeny z tego samego dokumentu zwykle pochodzą z tej samej domeny. Dlatego wykorzystali granice dokumentów jako słaby sygnał nadzorczy — podczas trenowania wszystkie tokeny w dokumencie są ograniczone do wybierania swoich aktywnych ekspertów z wspólnej puli ekspertów.
Na przykład w modelu MoE z 10 ekspertami całkowitymi i 2 aktywnymi ekspertami na token, wszystkie tokeny w dokumencie są ograniczone do routingu w tej samej puli 4 ekspertów. Ta pula jest wybierana przez sam router — system uśrednia preferencje routera względem ekspertów we wszystkich tokenach dokumentu, następnie wybiera najczęściej używanych ekspertów jako wspólną pulę dokumentu.
Implementacja systemu wymaga rozwiązania kilku wyzwań technicznych, szczególnie w obszarze równoważenia obciążeń. W standardowym trenowaniu MoE cel równoważenia obciążeń zapobiega kolapsowi modelu na małą liczbę ekspertów. Na pierwszy rzut oka wydaje się to sprzeczne z celem treningowym EMO, który jawnie ogranicza każdy dokument do używania tylko podzbioru ekspertów.
Zespół rozwiązał ten konflikt poprzez zmianę skali, w której stosuje się równoważenie obciążeń — zamiast obliczać je lokalnie w mikro-batchu, EMO stosuje równoważenie globalnie across całego datasetu treningowego.
Badania pokazują, że EMO znacznie przewyższa standardowe modele MoE w zadaniach wymagających selektywnego używania ekspertów, jednocześnie zachowując konkurencyjną wydajność jako model ogólnego przeznaczenia. To podejście otwiera możliwości dla bardziej elastycznego wdrażania dużych, rzadkich modeli MoE z lepszymi kompromisami między pamięcią a dokładnością.