19 kwietnia 20264 min czytania

Najlepsze modele AI tracą połowę wydajności przy złożonych wykresach

Nowy benchmark pokazuje dramatyczny spadek wydajności modeli AI przy złożonych wizualizacjach - nawet liderzy jak Claude i Gemini tracą 50% możliwości.

Źródło zdjęcia: The Decoder

Poprzedni

12 wykresów pokazujących stan AI w 2026 roku - raport IEEE Spectrum

Następny

DeepER-Med: Przełomowy system AI do badań medycznych opartych na dowodach

Podobne Publikacje

Badania i Nauka

Okulary Ray-Ban Meta z AI przyspieszają codzienne zadania o 37% w nowym badaniu

System VisionClaw łączy ciągłe postrzeganie otoczenia przez okulary z wykonywaniem zadań cyfrowych, oferując o 13-37% szybsze działanie.

4 min20 kwietnia 2026

Badania i Nauka

System GIST przekształca skanery 3D w inteligentne mapy nawigacyjne z 80% skutecznością

Naukowcy opracowali GIST - system AI przekształcający dane z mobilnych skanerów w semantyczne mapy nawigacyjne z 80% skutecznością w testach.

4 min

Kluczowe wnioski

• Drastyczny spadek wydajności: Najlepsze modele tracą niemal połowę swoich możliwości przy złożonych wykresach - Gemini 3 Pro Preview spada z 96% na prostych testach do około 50% na RealChart2Code

• Przewaga modeli własnościowych: Claude 4.5 Opus osiągnął najwyższy średni wynik 8,2 punktu, podczas gdy najlepsze modele open-source (Qwen3-VL-235B i Intern-VL-3.5-241B) uzyskały tylko 3,6 i 3,4 punktu

• Różne wzorce błędów: Modele open-source często wymyślają nieistniejące biblioteki (20% przypadków dla Qwen3-VL-235B), podczas gdy modele własnościowe popełniają błędy w przypisywaniu danych do osi

• Problem "regresywnej edycji": Modele naprawiając jeden błąd często psują wcześniej poprawne fragmenty kodu, co utrudnia iteracyjne ulepszanie

• Komprehensywny test: Benchmark obejmuje ponad 2800 przypadków testowych z rzeczywistych zbiorów danych Kaggle, 50 różnych typów wykresów i 860 milionów wierszy danych

Metodologia i zadania testowe

RealChart2Code sprawdza modele w trzech różnych zadaniach, które odzwierciedlają rzeczywiste scenariusze pracy. W "Replikacji wykresów" model musi wygenerować kod wizualizacji wyłącznie na podstawie obrazu. "Reprodukcja wykresów" dodaje surowe dane, sprawdzając czy system potrafi stworzyć odpowiedni kod z prawdziwych źródeł danych. Trzecie zadanie, "Udoskonalanie wykresów", symuluje rzeczywisty proces programowania - model otrzymuje błędny kod i musi go naprawić poprzez dialog z użytkownikiem.

Benchmark wykorzystuje dane z 1036 wyselekcjonowanych zbiorów danych Kaggle, co stanowi znaczący krok naprzód w porównaniu z wcześniejszymi testami jak Plot2Code i ChartMimic, które opierały się głównie na syntetycznych danych i prostych pojedynczych wykresach.

Analiza wyników i wzorców błędów

Wyniki testów ujawniają wyraźny podział między modelami własnościowymi a open-source. GPT-5.1 OpenAI osiągnął wynik zaledwie 5,4 punktu, znacznie poniżej liderów. Najsłabiej wypadł DeepSeek-VL-7B z zaledwie 9,7% współczynnikiem powodzenia w replikacji wykresów, co oznacza, że generowany kod w ponad 90% przypadków w ogóle się nie uruchamiał.

Zespół badawczy zidentyfikował charakterystyczne wzorce niepowodzeń. Modele open-source często załamują się na etapie wykonywania kodu, wymyślając nieistniejące biblioteki lub wywołując nieprawidłowe funkcje. Z kolei modele własnościowe jak Claude 4.5 i GPT-5.1 rzadko produkują błędy składniowe, ale mają problem z przypisywaniem danych - struktura wizualna wygląda poprawnie, ale poszczególne serie danych trafiają na złe osie lub atrybuty wizualne nie odpowiadają specyfikacji.

System oceny i dostępność

Do oceniania zespół wykorzystuje system wieloagentowy, który ocenia wygenerowane wizualizacje w trzystopniowej skali według ośmiu kryteriów, w tym typu wykresu, układu przestrzennego, elementów tekstowych, konfiguracji osi i schematu kolorów. Automatyczne oceny korelują z osądami ekspertów ludzkich z współczynnikiem Cohen's Kappa wynoszącym 0,83, wskazując na silną zgodność.

Badacze przyznają, że benchmark jest obecnie ograniczony do biblioteki Matplotlib, a automatyczne ocenianie może przegapić subtelne artefakty wizualne jak drobne nakładanie się elementów czy precyzyjne niuanse kolorów. Benchmark wraz z kodem jest dostępny na GitHub i Hugging Face.

Badanie pokazuje, że mimo imponujących osiągnięć w wielu obszarach, modele AI nadal mają znaczące trudności z kompleksowymi zadaniami wymagającymi precyzyjnego przetwarzania danych wizualnych i generowania odpowiedniego kodu.