9 maja 20264 min czytania

ZAYA1–8B — kompaktowy model AI dorównuje gigantom w rozumowaniu matematycznym

Nowy model ZAYA1–8B z 700M aktywnych parametrów osiąga 91,9% na AIME'25, konkurując z większymi modelami jak GPT-5-High dzięki architekturze MoE++.

Źródło zdjęcia: arXiv.org

Poprzedni

PlayStation sees AI as a ‘powerful tool’ to help make games

Następny

EMO: Model MoE z emergentną modularnością pozwala używać tylko 12,5% ekspertów

Podobne Publikacje

Badania i Nauka

Laureat Medalu Fieldsa: ChatGPT 5.5 Pro wykonał badania na poziomie doktorskim w matematyce w niecałe dwie godziny

Timothy Gowers użył ChatGPT 5.5 Pro do rozwiązania otwartych problemów matematycznych. AI samodzielnie wygenerował prace naukowe na poziomie doktorskim bez pomocy człowieka.

4 min9 maja

Modele AI

Baidu Ernie 5.1 obniża koszty trenowania o 94% przy wydajności top modeli

Chiński model Ernie 5.1 osiąga wyniki konkurencyjne z najlepszymi AI przy 94% niższych kosztach trenowania. Wykorzystuje innowacyjny pipeline.

Kluczowe wnioski

ZAYA1–8B z mniej niż 1 miliardem aktywnych parametrów dorównuje lub przewyższa DeepSeek-R1–0528 w wymagających testach matematycznych i programistycznych.

Model wykorzystuje innowacyjną metodę Markovian RSA dla obliczeń w czasie testowania, osiągając 91,9% na AIME'25 i 89,6% na HMMT'25.

Trening obejmował czterostopniowy proces uczenia ze wzmocnieniem: rozgrzewkę na matematyce i zagadkach, curriculum 400 zadań RLVE-Gym, oraz specjalistyczne RL dla matematyki i kodowania.

Dane do rozumowania były włączane już od etapu pretrainingu przy użyciu schematu przycinania zachowującego odpowiedzi.

Wyniki zbliżają model do znacznie większych systemów jak Gemini-2.5 Pro, DeepSeek-V3.2 i GPT-5-High.

Architektura i metodologia treningu

ZAYA1–8B wykorzystuje architekturę mixture-of-experts (MoE++), która pozwala na efektywne wykorzystanie parametrów przez aktywację jedynie części sieci dla każdego zadania. Model przeszedł przez kompletny proces treningu obejmujący pretraining, midtraining i nadzorowane dostrajanie (SFT).

Kluczowym elementem było włączenie danych rozumowania już od początkowych etapów treningu, co odróżnia ZAYA1–8B od wielu innych modeli, które dodają możliwości rozumowania dopiero w późniejszych fazach. Zespół zastosował schemat przycinania zachowujący odpowiedzi, aby zoptymalizować wykorzystanie danych treningowych.

Innowacyjne metody post-treningu

Proces post-treningu ZAYA1–8B składa się z czterech etapów uczenia ze wzmocnieniem. Pierwszy etap to rozgrzewka na zadaniach matematycznych i zagadkach logicznych. Następnie model przechodzi przez curriculum 400 zadań RLVE-Gym, zaprojektowane do systematycznego rozwijania zdolności rozumowania.

Trzeci etap koncentruje się na matematyce i programowaniu z wykorzystaniem śladów obliczeń w czasie testowania oraz syntetycznych środowisk kodowania opartych na referencjach z programowania konkurencyjnego. Ostatni etap to behawioralne uczenie ze wzmocnieniem dla poprawy umiejętności konwersacyjnych i wykonywania instrukcji.

Markovian RSA i obliczenia w czasie testowania

Zespół wprowadził również metodę Markovian RSA — innowacyjną technikę obliczeń w czasie testowania, która rekursywnie agreguje równoległe ślady rozumowania, zachowując jedynie ograniczone długości ogonów rozumowania między rundami. Ta metoda pozwoliła ZAYA1–8B osiągnąć imponujące wyniki: 91,9% na teście AIME'25 i 89,6% na HMMT'25, przy przenoszeniu jedynie 4K-tokenowego ogona między iteracjami.

ZAYA1–8B reprezentuje znaczący postęp w efektywnym modelowaniu rozumowania, pokazując, że mniejsze, dobrze zaprojektowane modele mogą konkurować z systemami o znacznie większej liczbie parametrów w wymagających zadaniach logicznych i matematycznych.