9 maja 20264 min czytania

EMO: Model MoE z emergentną modularnością pozwala używać tylko 12,5% ekspertów

Allen Institute for AI przedstawił EMO — model MoE pozwalający używać jedynie 12,5% ekspertów przy zachowaniu pełnej wydajności dla konkretnych zadań.

Źródło zdjęcia: huggingface.co

Poprzedni

ZAYA1–8B — kompaktowy model AI dorównuje gigantom w rozumowaniu matematycznym

Następny

Nick Bostrom Has a Plan for Humanity’s ‘Big Retirement’

Podobne Publikacje

Narzędzia i Aplikacje

AWS prezentuje architekturę infrastruktury dla treningu i wnioskowania modeli AI

Amazon Web Services opisuje ewolucję skalowania AI i przedstawia warstwową architekturę opartą na GPU Blackwell B200/B300 oraz narzędziach open source.

4 min12 maja

Modele AI

Baidu Ernie 5.1 obniża koszty trenowania o 94% przy wydajności top modeli

Chiński model Ernie 5.1 osiąga wyniki konkurencyjne z najlepszymi AI przy 94% niższych kosztach trenowania. Wykorzystuje innowacyjny pipeline.

4 min

Kluczowe wnioski

EMO to model MoE z 14 miliardami parametrów (1 miliard aktywnych), wytrenowany na 1 bilionie tokenów, który umożliwia selektywne używanie ekspertów.

Model pozwala wykorzystać tylko 12,5% wszystkich ekspertów dla konkretnej domeny przy zachowaniu niemal pełnej wydajności.

Kluczowa innowacja polega na ograniczeniu wszystkich tokenów w dokumencie do wspólnej puli ekspertów, co wymusza spójność i specjalizację domenową.

W przeciwieństwie do standardowych modeli MoE, gdzie eksperci specjalizują się w wzorcach leksykalnych niskiego poziomu, EMO organizuje ekspertów w spójne grupy domenowe.

Model pozostaje silnym narzędziem ogólnego przeznaczenia, gdy wszystkie eksperci są używane razem.

Problem standardowych modeli MoE

Tradycyjne duże modele językowe działają jako monolityczne systemy — jeden model jest inicjalizowany, trenowany, dostrajany i wdrażany jako zunifikowana całość. Jednak aplikacje często potrzebują jedynie podzbioru możliwości, takich jak generowanie kodu, rozumowanie matematyczne czy wiedza domenowa. Gdy modele osiągają biliony parametrów, używanie pełnego modelu staje się niepraktyczne i generuje niepotrzebne koszty obliczeniowe.

Modele MoE wydają się naturalnym rozwiązaniem tego problemu. Zamiast używać jednej dużej sieci feedforward w każdej warstwie, MoE zawierają wiele mniejszych sieci zwanych ekspertami i aktywują jedynie mały podzbiór dla każdego tokenu wejściowego. W teorii zadanie wymagające tylko jednej możliwości mogłoby załadować tylko odpowiednich ekspertów.

W praktyce jednak istniejące modele MoE wciąż potrzebują pełnego modelu do dobrego działania. Nawet w obrębie pojedynczego wejścia różne tokeny często aktywują różnych ekspertów, więc zadanie może skończyć używaniem wszystkich ekspertów podczas generowania. Dzieje się tak częściowo dlatego, że eksperci w standardowych modelach MoE często specjalizują się w wzorcach leksykalnych niskiego poziomu, takich jak przyimki czy interpunkcja, a nie w domenach czy możliwościach wyższego poziomu.

Jak działa emergentna modularność w EMO

Kluczową obserwacją zespołu było to, że tokeny z tego samego dokumentu zwykle pochodzą z tej samej domeny. Dlatego wykorzystali granice dokumentów jako słaby sygnał nadzorczy — podczas trenowania wszystkie tokeny w dokumencie są ograniczone do wybierania swoich aktywnych ekspertów z wspólnej puli ekspertów.

Na przykład w modelu MoE z 10 ekspertami całkowitymi i 2 aktywnymi ekspertami na token, wszystkie tokeny w dokumencie są ograniczone do routingu w tej samej puli 4 ekspertów. Ta pula jest wybierana przez sam router — system uśrednia preferencje routera względem ekspertów we wszystkich tokenach dokumentu, następnie wybiera najczęściej używanych ekspertów jako wspólną pulę dokumentu.

Implementacja systemu wymaga rozwiązania kilku wyzwań technicznych, szczególnie w obszarze równoważenia obciążeń. W standardowym trenowaniu MoE cel równoważenia obciążeń zapobiega kolapsowi modelu na małą liczbę ekspertów. Na pierwszy rzut oka wydaje się to sprzeczne z celem treningowym EMO, który jawnie ogranicza każdy dokument do używania tylko podzbioru ekspertów.

Zespół rozwiązał ten konflikt poprzez zmianę skali, w której stosuje się równoważenie obciążeń — zamiast obliczać je lokalnie w mikro-batchu, EMO stosuje równoważenie globalnie across całego datasetu treningowego.

Badania pokazują, że EMO znacznie przewyższa standardowe modele MoE w zadaniach wymagających selektywnego używania ekspertów, jednocześnie zachowując konkurencyjną wydajność jako model ogólnego przeznaczenia. To podejście otwiera możliwości dla bardziej elastycznego wdrażania dużych, rzadkich modeli MoE z lepszymi kompromisami między pamięcią a dokładnością.