Badanie MIT ujawnia mechanizm superpozycji, który pozwala modelom AI przechowywać więcej konceptów niż wymiary przestrzeni — klucz do zrozumienia praw skalowania.

Źródło zdjęcia: The Decoder

Startup Altara otrzymał 7 mln USD na rozwój AI skracającej diagnozę awarii baterii i półprzewodników z tygodni do minut poprzez integrację danych.

Badacze stworzyli system AI, który analizuje dane z operacji wiertniczych, przetwarzając tysiące raportów i pomiarów w czasie rzeczywistym.
Naukowcy z MIT wyjaśnili, dlaczego zwiększanie rozmiarów modeli językowych działa tak przewidywalnie. Odpowiedź kryje się w geometrycznej właściwości nazywanej superpozycją, która pozwala modelom przechowywać więcej konceptów, niż teoretycznie powinny zmieścić w dostępnej przestrzeni. Szczegóły badania opublikowane na konferencji NeurIPS 2025 można znaleźć tutaj.
Modele językowe muszą zmieścić dziesiątki tysięcy tokenów i jeszcze więcej abstrakcyjnych znaczeń w wewnętrznej przestrzeni, która ma tylko kilka tysięcy wymiarów. Teoretycznie przestrzeń trójwymiarowa może pomieścić tylko trzy koncepty bez interferencji. LLM-y obchodzą to ograniczenie, przechowując wiele konceptów jednocześnie w tych samych wymiarach — powstałe wektory nakładają się nieznacznie.
Zespół z MIT, w składzie Yizhou Liu, Ziming Liu i Jeff Gore, wykorzystał uproszczony model z Anthropic do porównania dwóch skrajnych przypadków. W pierwszym — „słabej superpozycji” — model przechowuje wyłącznie najczęstsze koncepty, ignorując resztę. W drugim — „silnej superpozycji” — model przechowuje wszystkie koncepty jednocześnie, pozwalając na częściowe nakładanie się wektorów.
Aby sprawdzić, który reżim dotyczy rzeczywistych systemów, zespół przeanalizował warstwy wyjściowe modeli open-source: OPT, GPT-2, Qwen2.5 i Pythia, o rozmiarach od około 100 milionów do 70 miliardów parametrów. Wynik był jednoznaczny — wszystkie tokeny są reprezentowane w modelu, ich wektory nakładają się, a siła tych nakładań maleje dokładnie w przewidywanym stosunku 1/m.
Zmierzony wykładnik skalowania wyniósł 0,91, blisko teoretycznej wartości 1. Dane Chinchilla od DeepMind dały niemal identyczny wynik 0,88. Według badaczy prawa skalowania wynikają bezpośrednio z tego, jak modele językowe organizują znaczenia geometrycznie w swoich reprezentacjach.
Praca dostarcza konkretnych odpowiedzi na dwa otwarte pytania w badaniach AI. Po pierwsze: czy skalowanie w końcu przestanie działać? Według naukowców tak — gdy szerokość modelu dorówna rozmiarowi słownika, będzie wystarczająco miejsca na reprezentację każdego tokenu bez nakładania, a błąd spowodowany ciasnotą reprezentacji zniknie.
Po drugie: czy można przyspieszyć prawa skalowania, aby wycisnąć więcej wydajności z każdego dodanego parametru? W przypadku języka naturalnego prawdopodobnie nie — rozkłady częstotliwości słów są relatywnie płaskie. Jednak w specjalistycznych zastosowaniach, gdzie istotne koncepty są bardzo nierównomiernie rozłożone, stromsze skalowanie może być możliwe.
To ma również implikacje dla projektowania architektur — modele aktywnie zachęcające do superpozycji powinny osiągać lepszą wydajność przy tym samym rozmiarze. Przykładem jest Nvidia nGPT, które wymusza wewnętrzne wektory na sferę jednostkową, pakując je gęściej. Jednak im więcej konceptów się nakłada, tym trudniej jest śledzić, co faktycznie dzieje się wewnątrz modelu — to realne wyzwanie dla interpretowalności mechanistycznej i badań bezpieczeństwa AI.