Burmistrz Nowego Jorku zakazuje używania AI w ogłoszeniach najmu bez ujawnienia•
Model Kimi K3 z Chin wywołuje obawy o amerykańską przewagę w AI•
Mania AI niszczy globalne podejmowanie decyzji — raport z frontu•
Pentagon traktuje wolne wdrażanie AI jako większe ryzyko niż niedoskonałe dostosowanie systemów•
Prompt injection jako obrona: nowa metoda zatrzymuje ataki agentów AI•
Jak działają nowe limity Gemini AI od Google i jak sprawdzać wykorzystanie•
Otwarte modele AI doganiają systemy zamknięte w cyberbezpieczeństwie — luka skurczyła się do 4 miesięcy•
Aplikacje do śledzenia miesiączki szpiegują użytkowniczki — badanie Mozilla•
Chiny utworzyły globalną organizację AI z 29 krajami — bez udziału Zachodu•
Meta w rozmowach z Anthropic o wynajmie mocy obliczeniowej za 10 miliardów dolarów•
Doświadczony programista: AI zabiła radość z tworzenia oprogramowania•
Współzałożyciel Index Ventures przewiduje redystrybucję bogactwa z AI•
Dziennikarz odkrył, że AI publikuje pod jego nazwiskiem po zwolnieniu•
Patreon blokuje boty AI zamiast prosić o niescrapowanie treści•
NVIDIA i Hugging Face integrują NeMo Automodel z Diffusers dla skalowania treningu modeli AI•
Nowa metoda wykrywa pozorowane rozumowanie w modelach AI poprzez test zależności od przesłanek•
San Francisco żąda od Apple i Google usunięcia aplikacji AI do tworzenia nagich zdjęć•
Linus Torvalds broni AI w rozwoju Linuksa: krytycy mogą stworzyć fork•
Przedsiębiorstwa kupują infrastrukturę AI szybciej niż potrafią zmierzyć jej koszty•
Chiński model Kimi K3 konkuruje z GPT 5.6 Sol i Claude Fable 5, kończy erę tanich AI•

Tag

#IBM Research

2 artykuły z tym tagiem

Najlepsze modele AI osiągają poniżej 50% w pierwszym benchmarku zadań IT przedsiębiorstw

ITBench-AA pokazuje, że nawet Claude Opus 4.7 i GPT-5.5 nie przekraczają 50% w zadaniach Site Reliability Engineering. Pierwszy benchmark agentów IT.

4 min27 maja

Badania i Nauka

Benchmark VAKRA ujawnia słabe punkty agentów AI w zadaniach biznesowych

Nowy benchmark IBM testuje agentów AI w środowisku z 8000+ API, pokazując znaczące luki w wieloetapowym rozumowaniu biznesowym.

4 min15 kwietnia