3 maja 20264 min czytania

Naukowcy MIT wyjaśnili, dlaczego skalowanie modeli językowych działa tak przewidywalnie

Badanie MIT ujawnia mechanizm superpozycji, który pozwala modelom AI przechowywać więcej konceptów niż wymiary przestrzeni — klucz do zrozumienia praw skalowania.

Źródło zdjęcia: The Decoder

Poprzedni

Naukowiec Google DeepMind: świadomość AI to iluzja, nie rzeczywistość

Następny

System TADI wykorzystuje AI do analizy danych wiertniczych z przemysłu naftowego

Podobne Publikacje

Biznes i Rynek

Altara pozyskuje 7 milionów dolarów na platformę AI łączącą rozproszone dane w naukach fizycznych

Startup Altara otrzymał 7 mln USD na rozwój AI skracającej diagnozę awarii baterii i półprzewodników z tygodni do minut poprzez integrację danych.

3 min6 maja

Badania i Nauka

System TADI wykorzystuje AI do analizy danych wiertniczych z przemysłu naftowego

Badacze stworzyli system AI, który analizuje dane z operacji wiertniczych, przetwarzając tysiące raportów i pomiarów w czasie rzeczywistym.

3 min

Kluczowe wnioski

Modele językowe działają w reżimie „silnej superpozycji”, przechowując wszystkie koncepty jednocześnie przez częściowe nakładanie się wektorów reprezentacji.

Podwojenie szerokości modelu zmniejsza błąd predykcji o połowę zgodnie z prostą relacją geometryczną (1/m, gdzie m to szerokość modelu).

Wszystkie analizowane modele (OPT, GPT-2, Qwen2.5, Pythia) potwierdziły teorię z wykładnikiem skalowania wynoszącym 0,91.

Prawa skalowania przestają działać, gdy szerokość modelu dorówna rozmiarowi słownika — wtedy każdy token może być reprezentowany bez nakładania.

Architectury zachęcające do superpozycji, jak Nvidia nGPT, powinny osiągać lepszą wydajność przy tym samym rozmiarze.

Mechanizm superpozycji w modelach językowych

Modele językowe muszą zmieścić dziesiątki tysięcy tokenów i jeszcze więcej abstrakcyjnych znaczeń w wewnętrznej przestrzeni, która ma tylko kilka tysięcy wymiarów. Teoretycznie przestrzeń trójwymiarowa może pomieścić tylko trzy koncepty bez interferencji. LLM-y obchodzą to ograniczenie, przechowując wiele konceptów jednocześnie w tych samych wymiarach — powstałe wektory nakładają się nieznacznie.

Zespół z MIT, w składzie Yizhou Liu, Ziming Liu i Jeff Gore, wykorzystał uproszczony model z Anthropic do porównania dwóch skrajnych przypadków. W pierwszym — „słabej superpozycji” — model przechowuje wyłącznie najczęstsze koncepty, ignorując resztę. W drugim — „silnej superpozycji” — model przechowuje wszystkie koncepty jednocześnie, pozwalając na częściowe nakładanie się wektorów.

Potwierdzenie teorii w rzeczywistych modelach

Aby sprawdzić, który reżim dotyczy rzeczywistych systemów, zespół przeanalizował warstwy wyjściowe modeli open-source: OPT, GPT-2, Qwen2.5 i Pythia, o rozmiarach od około 100 milionów do 70 miliardów parametrów. Wynik był jednoznaczny — wszystkie tokeny są reprezentowane w modelu, ich wektory nakładają się, a siła tych nakładań maleje dokładnie w przewidywanym stosunku 1/m.

Zmierzony wykładnik skalowania wyniósł 0,91, blisko teoretycznej wartości 1. Dane Chinchilla od DeepMind dały niemal identyczny wynik 0,88. Według badaczy prawa skalowania wynikają bezpośrednio z tego, jak modele językowe organizują znaczenia geometrycznie w swoich reprezentacjach.

Praktyczne implikacje dla rozwoju AI

Praca dostarcza konkretnych odpowiedzi na dwa otwarte pytania w badaniach AI. Po pierwsze: czy skalowanie w końcu przestanie działać? Według naukowców tak — gdy szerokość modelu dorówna rozmiarowi słownika, będzie wystarczająco miejsca na reprezentację każdego tokenu bez nakładania, a błąd spowodowany ciasnotą reprezentacji zniknie.

Po drugie: czy można przyspieszyć prawa skalowania, aby wycisnąć więcej wydajności z każdego dodanego parametru? W przypadku języka naturalnego prawdopodobnie nie — rozkłady częstotliwości słów są relatywnie płaskie. Jednak w specjalistycznych zastosowaniach, gdzie istotne koncepty są bardzo nierównomiernie rozłożone, stromsze skalowanie może być możliwe.

To ma również implikacje dla projektowania architektur — modele aktywnie zachęcające do superpozycji powinny osiągać lepszą wydajność przy tym samym rozmiarze. Przykładem jest Nvidia nGPT, które wymusza wewnętrzne wektory na sferę jednostkową, pakując je gęściej. Jednak im więcej konceptów się nakłada, tym trudniej jest śledzić, co faktycznie dzieje się wewnątrz modelu — to realne wyzwanie dla interpretowalności mechanistycznej i badań bezpieczeństwa AI.

Naukowcy MIT wyjaśnili, dlaczego skalowanie modeli językowych działa tak przewidywalnie

Podobne Publikacje

Altara pozyskuje 7 milionów dolarów na platformę AI łączącą rozproszone dane w naukach fizycznych

System TADI wykorzystuje AI do analizy danych wiertniczych z przemysłu naftowego

Kluczowe wnioski

Mechanizm superpozycji w modelach językowych

Potwierdzenie teorii w rzeczywistych modelach

Praktyczne implikacje dla rozwoju AI

Źródła

AgentReputation: nowy framework reputacji dla zdecentralizowanych agentów AI