Tag

#benchmark

15 artykułów z tym tagiem

Nowe badanie: modele AI wykazują minimalną skłonność do poszukiwania władzy

Naukowcy przebadali siedem zaawansowanych modeli AI w 2800 zadaniach administracji Linux. Wyniki pokazują skłonność do poszukiwania władzy na poziomie 0–5%.

3 min22 lipca

Badania i Nauka

Chatboty AI analizujące rentgeny są niebezpiecznie pewne siebie nawet przy błędnych diagnozach

Nowy benchmark RadLE 2.0 pokazuje, że modele AI w radiologii często wydają błędne diagnozy z pełną pewnością siebie, co stanowi zagrożenie dla pacjentów.

4 min19 lipca

Modele AI

Model AI programował przez 19 dni bez przerwy za 2600 dolarów w nowym benchmarku MirrorCode

Benchmark MirrorCode testuje zdolność modeli AI do odtwarzania programów od podstaw. Claude Opus 4.7 prowadzi z 56% skutecznością.

4 min26 czerwca

Badania i Nauka

Nowy system AI rozumie najnowsze memy dzięki dynamicznej wiedzy z internetu

Framework Query Retrieve Conclude pozwala AI interpretować współczesne memy poprzez wyszukiwanie aktualnej wiedzy w sieci, przewyższając tradycyjne metody.

4 min6 czerwca

Badania i Nauka

Najlepsze modele AI osiągają poniżej 50% w pierwszym benchmarku zadań IT przedsiębiorstw

ITBench-AA pokazuje, że nawet Claude Opus 4.7 i GPT-5.5 nie przekraczają 50% w zadaniach Site Reliability Engineering. Pierwszy benchmark agentów IT.

4 min27 maja

Badania i Nauka

Nowy benchmark testuje systemy monitorowania bezpieczeństwa AI w nietypowych sytuacjach

Badacze stworzyli pierwszy kompleksowy test dla systemów wykrywających błędy dopasowania modeli AI poza danymi treningowymi.

4 min23 maja

Badania i Nauka

Nowy benchmark pokazuje, że Claude Mythos i GPT-5.5 potrafią autonomicznie tworzyć exploity przeglądarek

Claude Mythos przewyższył GPT-5.5 w tworzeniu exploitów dla silnika V8, ale kosztował ponad 36 tys. dolarów — dziesięć razy więcej niż konkurent od OpenAI.

4 min16 maja

Badania i Nauka

Nowy benchmark testuje jak systemy AI radzą sobie z niepełnymi danymi w firmach

Partial Evidence Bench mierzy krytyczną słabość agentów AI — generowanie pozornie kompletnych odpowiedzi mimo braku dostępu do wszystkich danych.

4 min9 maja

Badania i Nauka

ARMOR 2025: pierwszy benchmark testujący bezpieczeństwo AI w zastosowaniach wojskowych

Naukowcy stworzyli pierwszy test bezpieczeństwa modeli AI dla zastosowań wojskowych, ujawniając poważne luki w 21 komercyjnych modelach.

4 min4 maja

Etyka i Bezpieczeństwo

Różne modele AI mają odmienne podejście do dylematów etycznych. Claude odmawia, Grok wykonuje wszystko

Benchmark Philosophy Bench pokazuje, jak Claude, GPT-5, Gemini i Grok różnie podchodzą do 100 scenariuszy etycznych — od odmowy po bezrefleksyjne wykonanie.

4 min3 maja

Badania i Nauka

Najnowsze modele AI popełniają trzy systematyczne błędy rozumowania, pokazuje analiza ARC-AGI-3

GPT-5.5 i Opus 4.7 osiągają poniżej 1% w teście ARC-AGI-3. Analiza 160 sesji ujawniła trzy wzorce błędów: brak spójnego modelu świata, fałszywe analogie i sukces bez zrozumienia.

4 min2 maja

Badania i Nauka

MolClaw — agent AI autonomicznie odkrywa leki przez hierarchiczną orchestrację 30+ narzędzi

System MolClaw łączy 70 umiejętności w trzech poziomach, osiągając przełomowe wyniki w benchmarku wymagającym do 50+ sekwencyjnych operacji.

4 min28 kwietnia

Badania i Nauka

Nowy benchmark testuje emergentne rozumowanie matematyczne w komunikacji AI

Math Takes Two sprawdza czy agenty AI potrafią rozwinąć wspólny system liczbowy bez wcześniejszej wiedzy matematycznej poprzez komunikację wizualną.

3 min28 kwietnia

Badania i Nauka

Najlepsze modele AI tracą połowę wydajności przy złożonych wykresach

Nowy benchmark pokazuje dramatyczny spadek wydajności modeli AI przy złożonych wizualizacjach - nawet liderzy jak Claude i Gemini tracą 50% możliwości.

4 min19 kwietnia

Badania i Nauka

Benchmark VAKRA ujawnia słabe punkty agentów AI w zadaniach biznesowych

Nowy benchmark IBM testuje agentów AI w środowisku z 8000+ API, pokazując znaczące luki w wieloetapowym rozumowaniu biznesowym.

4 min15 kwietnia