6 artykułów z tym tagiem
ITBench-AA pokazuje, że nawet Claude Opus 4.7 i GPT-5.5 nie przekraczają 50% w zadaniach Site Reliability Engineering. Pierwszy benchmark agentów IT.
SOOHAK odsłania słabości AI: najlepszy model osiągnął 30% w trudnych zadaniach i nie potrafi odmówić odpowiedzi na problemy bez rozwiązania.
Anthropic udostępniła przewodnik konfiguracji modeli Claude Code. Trzy metody przełączania między sześcioma modelami — od komendy /model po zmienne środowiskowe.
OpenAI po raz drugi eliminuje osobny model programistyczny Codex, integrując go z GPT-5.5. Wersja 5.3 była ostatnim samodzielnym Codex.
Chińska firma DeepSeek zapowiada model AI V4, który ma konkurować z systemami od Google, OpenAI i Anthropic. Szczególnie mocny w kodowaniu.
Nowy benchmark pokazuje dramatyczny spadek wydajności modeli AI przy złożonych wizualizacjach - nawet liderzy jak Claude i Gemini tracą 50% możliwości.