4 artykuły z tym tagiem
Badanie pokazuje, że modele AI zdolne do rozumowania wykazują rosnące uprzedzenia pozycyjne proporcjonalnie do długości trajektorii myślenia.
Nowy model ZAYA1–8B z 700M aktywnych parametrów osiąga 91,9% na AIME'25, konkurując z większymi modelami jak GPT-5-High dzięki architekturze MoE++.
Nowy benchmark IBM testuje agentów AI w środowisku z 8000+ API, pokazując znaczące luki w wieloetapowym rozumowaniu biznesowym.
Najnowszy model Anthropic wyznacza nowe benchmarki w logicznym myśleniu i analizie, rzucając wyzwanie konkurencji na rynku sztucznej inteligencji.