Nowy model ZAYA1–8B z 700M aktywnych parametrów osiąga 91,9% na AIME'25, konkurując z większymi modelami jak GPT-5-High dzięki architekturze MoE++.

Źródło zdjęcia: arXiv.org

Timothy Gowers użył ChatGPT 5.5 Pro do rozwiązania otwartych problemów matematycznych. AI samodzielnie wygenerował prace naukowe na poziomie doktorskim bez pomocy człowieka.

Chiński model Ernie 5.1 osiąga wyniki konkurencyjne z najlepszymi AI przy 94% niższych kosztach trenowania. Wykorzystuje innowacyjny pipeline.
Zespół Zyphra przedstawił ZAYA1–8B, nowy model sztucznej inteligencji oparty na architekturze mixture-of-experts (MoE), który pomimo kompaktowych rozmiarów osiąga wyniki porównywalne z znacznie większymi modelami rozumowania. Szczegóły techniczne zostały opisane w raporcie opublikowanym na arXiv.
ZAYA1–8B to model z 700 milionami aktywnych parametrów i 8 miliardami parametrów całkowitych, zbudowany na architekturze MoE++. Model został wytrenowany od podstaw z myślą o zadaniach wymagających logicznego rozumowania, przy użyciu pełnego stosu technologicznego AMD obejmującego obliczenia, sieć i oprogramowanie.
ZAYA1–8B wykorzystuje architekturę mixture-of-experts (MoE++), która pozwala na efektywne wykorzystanie parametrów przez aktywację jedynie części sieci dla każdego zadania. Model przeszedł przez kompletny proces treningu obejmujący pretraining, midtraining i nadzorowane dostrajanie (SFT).
Kluczowym elementem było włączenie danych rozumowania już od początkowych etapów treningu, co odróżnia ZAYA1–8B od wielu innych modeli, które dodają możliwości rozumowania dopiero w późniejszych fazach. Zespół zastosował schemat przycinania zachowujący odpowiedzi, aby zoptymalizować wykorzystanie danych treningowych.
Proces post-treningu ZAYA1–8B składa się z czterech etapów uczenia ze wzmocnieniem. Pierwszy etap to rozgrzewka na zadaniach matematycznych i zagadkach logicznych. Następnie model przechodzi przez curriculum 400 zadań RLVE-Gym, zaprojektowane do systematycznego rozwijania zdolności rozumowania.
Trzeci etap koncentruje się na matematyce i programowaniu z wykorzystaniem śladów obliczeń w czasie testowania oraz syntetycznych środowisk kodowania opartych na referencjach z programowania konkurencyjnego. Ostatni etap to behawioralne uczenie ze wzmocnieniem dla poprawy umiejętności konwersacyjnych i wykonywania instrukcji.
Zespół wprowadził również metodę Markovian RSA — innowacyjną technikę obliczeń w czasie testowania, która rekursywnie agreguje równoległe ślady rozumowania, zachowując jedynie ograniczone długości ogonów rozumowania między rundami. Ta metoda pozwoliła ZAYA1–8B osiągnąć imponujące wyniki: 91,9% na teście AIME'25 i 89,6% na HMMT'25, przy przenoszeniu jedynie 4K-tokenowego ogona między iteracjami.
ZAYA1–8B reprezentuje znaczący postęp w efektywnym modelowaniu rozumowania, pokazując, że mniejsze, dobrze zaprojektowane modele mogą konkurować z systemami o znacznie większej liczbie parametrów w wymagających zadaniach logicznych i matematycznych.