2 artykuły z tym tagiem
ITBench-AA pokazuje, że nawet Claude Opus 4.7 i GPT-5.5 nie przekraczają 50% w zadaniach Site Reliability Engineering. Pierwszy benchmark agentów IT.
Nowy benchmark IBM testuje agentów AI w środowisku z 8000+ API, pokazując znaczące luki w wieloetapowym rozumowaniu biznesowym.