19 czerwca 20264 min czytania

Startup twierdzi, że przełamał matematyczne ograniczenie blokujące rozwój dużych modeli językowych

Subquadratic opracował model SubQ wykorzystujący rzadką uwagę, która pozwala przetwarzać 12 razy więcej tekstu przy znacznie niższych kosztach energetycznych.

Źródło zdjęcia: MIT Technology Review

Startup z Miami o nazwie Subquadratic wyszedł z trybu ukrycia w zeszłym miesiącu, ogłaszając przełomowe rozwiązanie matematycznego problemu blokującego rozwój dużych modeli językowych od niemal dekady. Początkowo szczegóły były skąpe i wiele osób było sceptycznych, jednak firma zaczęła przedstawiać dowody, publikując wyniki niezależnej oceny swojej technologii przez firmę Appen. Szczegółowe informacje można znaleźć w artykule MIT Technology Review.

Kluczowe wnioski

Subquadratic opracował model SubQ wykorzystujący rzadką uwagę (sparse attention) zamiast standardowej gęstej uwagi, co pozwala na przetwarzanie do 12 razy więcej tekstu jednocześnie.
Niezależne testy firmy Appen potwierdziły twierdzenia startupu o znacznie wyższej szybkości i niższych kosztach energetycznych przy zachowaniu wydajności porównywalnej z modelami Google DeepMind, OpenAI i Anthropic.
Przełom polega na zastąpieniu mechanizmu transformatora, który wymaga kwadratowego wzrostu obliczeń wraz z długością tekstu, bardziej efektywnym rozwiązaniem.
Model może analizować setki dokumentów lub całe bazy kodu, oferując ogromne przyspieszenie przy ułamku typowych kosztów dla określonych zadań.
Firma twierdzi, że jej rozwiązanie może zapoczątkować nową erę efektywności i zmienić sposób budowania LLM-ów w przyszłości.

Problem kwadratowego wzrostu obliczeń

Większość współczesnych dużych modeli językowych wykorzystuje mechanizm zwany gęstą uwagą (dense attention), będący podstawą sieci neuronowych typu transformer. Proces ten polega na kodowaniu każdego słowa lub fragmentu słowa (tokena) liczbą, a następnie mnożeniu każdej z tych liczb przez wszystkie pozostałe liczby w danym tekście.

Jak wyjaśnia CEO Subquadratic Justin Dangel: „Jeśli chcesz podsumować 'Wielkiego Gatsby'ego', musisz spojrzeć na pierwsze i ostatnie słowo razem, a następnie na każdą inną kombinację”. Tekst o długości 10 tysięcy słów generuje niemal 50 milionów indywidualnych mnożeń, co czyni LLM-y notorycznie energochłonnymi.

Problem pogarsza się wraz ze wzrostem długości tekstu. Każda dodatkowa liczba musi być pomnożona przez wszystkie poprzednie, co oznacza, że podwojenie liczby słów skutkuje mniej więcej poczwórnym wzrostem liczby obliczeń – zjawisko znane jako ekspansja kwadratowa.

Rozwiązanie oparte na rzadkiej uwadze

Subquadratic zastąpił gęstą uwagę mechanizmem rzadkiej uwagi (sparse attention), który drastycznie redukuje liczbę potrzebnych obliczeń. Zamiast mnożyć liczby przypisane każdemu tokenowi przez wszystkie inne liczby, rzadka uwaga wybiera tylko niektóre z nich. Założenie jest takie, że nie wszystkie relacje między słowami w tekście są istotne.

„Rzadka uwaga mówi, że nie wszystkie te relacje są ważne, bo po prostu nie są – wyjaśnia CTO Alex Whedon. – Gdy czytasz książkę, nie patrzysz na pierwsze i drugie słowo, pierwsze i trzecie – to szaleństwo”.

Choć podejście wydaje się proste, poprzednie próby implementacji rzadkiej uwagi nie pozwalały na uchwycenie znaczenia dokumentu równie dobrze jak gęsta uwaga. Jak komentuje Will Depue, niezależny badacz AI, który wcześniej pracował w OpenAI: „Wypróbowano już praktycznie wszystko pod słońcem. To nie jest niemożliwe, ale jest podobne do przebieżenia mili w cztery minuty”.

Weryfikacja przez niezależną firmę

Początkowo skeptycyzm wobec twierdzeń Subquadratic był zrozumiały. Dan McAteer, inżynier sztucznej inteligencji, podsumował ogólną reakcję na platformie X: „SubQ to albo największy przełom od czasu Transformera... albo AI Theranos”.

Miesiąc po ogłoszeniu firma opublikowała dodatkowe informacje o swoim modelu, w tym wyniki niezależnych testów przeprowadzonych przez firmę Appen, która ocenia modele innych firm. Jak mówi Jeanine Sinanan-Singh, dyrektor badań AI generatywnej w Appen: „To było dla mnie naprawdę ekscytujące, potwierdziło ich architekturę. Pomyślałam: 'Wow, to może być przełom', bo modele borykają się z problemami szybkości i nieefektywności”.

SubQ może nie zastąpi istniejących topowych modeli we wszystkich zastosowaniach, ale oferuje ogromny wzrost szybkości przy ułamku typowych kosztów dla określonych zadań. Firma przewiduje, że w długiej perspektywie ich przełom może zmienić sposób budowania LLM-ów, jak wyjaśnia Dangel: „Mamy nadzieję, że zapoczątkowujemy nową erę efektywności. Nie sądzimy, żeby ktokolwiek budował na transformerach za kilka lat”.

#SubQ #rzadka uwaga #efektywność energetyczna #Subquadratic #transformery

Udostępnij

Źródła

MIT Technology Review

Poprzedni

MolmoMotion: Model AI przewiduje ruch obiektów 3D na podstawie instrukcji tekstowych

Następny

Meta wypuszcza Llama 4: open source rewolucja dorównująca GPT-4o

Podobne Publikacje

Badania i Nauka

Systemy AI dorównują lekarzom w najnowszych badaniach Nature, ale wyniki wskazują na ograniczoną przyszłość technologii

Niemiecka MIRA i Google'owski AMIE osiągnęły lepsze wyniki od lekarzy w diagnozowaniu i planowaniu terapii, ale działają na przestarzałych modelach.

4 min18 czerwca

Badania i Nauka

Agenci AI znajdują właściwe pliki, ale mijają się z kluczowymi liniami kodu

Nowe badanie ujawnia słabość agentów AI w kodowaniu — pokrywają tylko 14–19% istotnych linijek kodu, choć dobrze radzą sobie z wyszukiwaniem plików.

4 min14 czerwca

Badania i Nauka

Tylko 16 proc. Amerykanów wierzy w pozytywny wpływ AI na społeczeństwo

Nowe badanie Pew Research ujawnia paradoks: ChatGPT używa już 44 proc. Amerykanów, ale tylko 16 proc. wierzy w pozytywny wpływ AI na społeczeństwo.

4 min17 czerwca

Kluczowe wnioski

Subquadratic opracował model SubQ wykorzystujący rzadką uwagę (sparse attention) zamiast standardowej gęstej uwagi, co pozwala na przetwarzanie do 12 razy więcej tekstu jednocześnie.

Niezależne testy firmy Appen potwierdziły twierdzenia startupu o znacznie wyższej szybkości i niższych kosztach energetycznych przy zachowaniu wydajności porównywalnej z modelami Google DeepMind, OpenAI i Anthropic.

Przełom polega na zastąpieniu mechanizmu transformatora, który wymaga kwadratowego wzrostu obliczeń wraz z długością tekstu, bardziej efektywnym rozwiązaniem.

Model może analizować setki dokumentów lub całe bazy kodu, oferując ogromne przyspieszenie przy ułamku typowych kosztów dla określonych zadań.

Firma twierdzi, że jej rozwiązanie może zapoczątkować nową erę efektywności i zmienić sposób budowania LLM-ów w przyszłości.

Problem kwadratowego wzrostu obliczeń

Rozwiązanie oparte na rzadkiej uwadze

Weryfikacja przez niezależną firmę