Subquadratic opracował model SubQ wykorzystujący rzadką uwagę, która pozwala przetwarzać 12 razy więcej tekstu przy znacznie niższych kosztach energetycznych.

Źródło zdjęcia: MIT Technology Review
Startup z Miami o nazwie Subquadratic wyszedł z trybu ukrycia w zeszłym miesiącu, ogłaszając przełomowe rozwiązanie matematycznego problemu blokującego rozwój dużych modeli językowych od niemal dekady. Początkowo szczegóły były skąpe i wiele osób było sceptycznych, jednak firma zaczęła przedstawiać dowody, publikując wyniki niezależnej oceny swojej technologii przez firmę Appen. Szczegółowe informacje można znaleźć w artykule MIT Technology Review.
Większość współczesnych dużych modeli językowych wykorzystuje mechanizm zwany gęstą uwagą (dense attention), będący podstawą sieci neuronowych typu transformer. Proces ten polega na kodowaniu każdego słowa lub fragmentu słowa (tokena) liczbą, a następnie mnożeniu każdej z tych liczb przez wszystkie pozostałe liczby w danym tekście.
Jak wyjaśnia CEO Subquadratic Justin Dangel: „Jeśli chcesz podsumować 'Wielkiego Gatsby'ego', musisz spojrzeć na pierwsze i ostatnie słowo razem, a następnie na każdą inną kombinację”. Tekst o długości 10 tysięcy słów generuje niemal 50 milionów indywidualnych mnożeń, co czyni LLM-y notorycznie energochłonnymi.
Problem pogarsza się wraz ze wzrostem długości tekstu. Każda dodatkowa liczba musi być pomnożona przez wszystkie poprzednie, co oznacza, że podwojenie liczby słów skutkuje mniej więcej poczwórnym wzrostem liczby obliczeń – zjawisko znane jako ekspansja kwadratowa.
Subquadratic zastąpił gęstą uwagę mechanizmem rzadkiej uwagi (sparse attention), który drastycznie redukuje liczbę potrzebnych obliczeń. Zamiast mnożyć liczby przypisane każdemu tokenowi przez wszystkie inne liczby, rzadka uwaga wybiera tylko niektóre z nich. Założenie jest takie, że nie wszystkie relacje między słowami w tekście są istotne.
„Rzadka uwaga mówi, że nie wszystkie te relacje są ważne, bo po prostu nie są – wyjaśnia CTO Alex Whedon. – Gdy czytasz książkę, nie patrzysz na pierwsze i drugie słowo, pierwsze i trzecie – to szaleństwo”.
Choć podejście wydaje się proste, poprzednie próby implementacji rzadkiej uwagi nie pozwalały na uchwycenie znaczenia dokumentu równie dobrze jak gęsta uwaga. Jak komentuje Will Depue, niezależny badacz AI, który wcześniej pracował w OpenAI: „Wypróbowano już praktycznie wszystko pod słońcem. To nie jest niemożliwe, ale jest podobne do przebieżenia mili w cztery minuty”.
Początkowo skeptycyzm wobec twierdzeń Subquadratic był zrozumiały. Dan McAteer, inżynier sztucznej inteligencji, podsumował ogólną reakcję na platformie X: „SubQ to albo największy przełom od czasu Transformera... albo AI Theranos”.
Miesiąc po ogłoszeniu firma opublikowała dodatkowe informacje o swoim modelu, w tym wyniki niezależnych testów przeprowadzonych przez firmę Appen, która ocenia modele innych firm. Jak mówi Jeanine Sinanan-Singh, dyrektor badań AI generatywnej w Appen: „To było dla mnie naprawdę ekscytujące, potwierdziło ich architekturę. Pomyślałam: 'Wow, to może być przełom', bo modele borykają się z problemami szybkości i nieefektywności”.
SubQ może nie zastąpi istniejących topowych modeli we wszystkich zastosowaniach, ale oferuje ogromny wzrost szybkości przy ułamku typowych kosztów dla określonych zadań. Firma przewiduje, że w długiej perspektywie ich przełom może zmienić sposób budowania LLM-ów, jak wyjaśnia Dangel: „Mamy nadzieję, że zapoczątkowujemy nową erę efektywności. Nie sądzimy, żeby ktokolwiek budował na transformerach za kilka lat”.

Niemiecka MIRA i Google'owski AMIE osiągnęły lepsze wyniki od lekarzy w diagnozowaniu i planowaniu terapii, ale działają na przestarzałych modelach.

Nowe badanie ujawnia słabość agentów AI w kodowaniu — pokrywają tylko 14–19% istotnych linijek kodu, choć dobrze radzą sobie z wyszukiwaniem plików.

Nowe badanie Pew Research ujawnia paradoks: ChatGPT używa już 44 proc. Amerykanów, ale tylko 16 proc. wierzy w pozytywny wpływ AI na społeczeństwo.