2 artykuły z tym tagiem
Nowy benchmark pokazuje dramatyczny spadek wydajności modeli AI przy złożonych wizualizacjach - nawet liderzy jak Claude i Gemini tracą 50% możliwości.
Nowy benchmark IBM testuje agentów AI w środowisku z 8000+ API, pokazując znaczące luki w wieloetapowym rozumowaniu biznesowym.