Nowy benchmark pokazuje dramatyczny spadek wydajności modeli AI przy złożonych wizualizacjach - nawet liderzy jak Claude i Gemini tracą 50% możliwości.

Źródło zdjęcia: The Decoder

System VisionClaw łączy ciągłe postrzeganie otoczenia przez okulary z wykonywaniem zadań cyfrowych, oferując o 13-37% szybsze działanie.

Naukowcy opracowali GIST - system AI przekształcający dane z mobilnych skanerów w semantyczne mapy nawigacyjne z 80% skutecznością w testach.
Nowy benchmark RealChart2Code sprawdził, jak 14 wiodących modeli AI radzi sobie ze złożonymi wizualizacjami danych opartymi na rzeczywistych zbiorach. Wyniki pokazują dramatyczny spadek wydajności nawet najlepszych systemów, gdy zadania stają się bardziej skomplikowane. Badanie przeprowadzone przez zespół chińskich uniwersytetów ujawnia istotne ograniczenia obecnie dostępnych rozwiązań AI w obszarze generowania kodu wizualizacji.
Podczas gdy modele AI bez większych problemów odtwarzają proste wykresy z obrazów, złożone wieloelementowe wizualizacje oparte na realnych danych stanowią dla nich poważne wyzwanie. RealChart2Code to pierwszy benchmark systematycznie oceniający generowanie kodu z dużych zbiorów danych i iteracyjne ulepszanie w formacie konwersacyjnym.
• Drastyczny spadek wydajności: Najlepsze modele tracą niemal połowę swoich możliwości przy złożonych wykresach - Gemini 3 Pro Preview spada z 96% na prostych testach do około 50% na RealChart2Code
• Przewaga modeli własnościowych: Claude 4.5 Opus osiągnął najwyższy średni wynik 8,2 punktu, podczas gdy najlepsze modele open-source (Qwen3-VL-235B i Intern-VL-3.5-241B) uzyskały tylko 3,6 i 3,4 punktu
• Różne wzorce błędów: Modele open-source często wymyślają nieistniejące biblioteki (20% przypadków dla Qwen3-VL-235B), podczas gdy modele własnościowe popełniają błędy w przypisywaniu danych do osi
• Problem "regresywnej edycji": Modele naprawiając jeden błąd często psują wcześniej poprawne fragmenty kodu, co utrudnia iteracyjne ulepszanie
• Komprehensywny test: Benchmark obejmuje ponad 2800 przypadków testowych z rzeczywistych zbiorów danych Kaggle, 50 różnych typów wykresów i 860 milionów wierszy danych
RealChart2Code sprawdza modele w trzech różnych zadaniach, które odzwierciedlają rzeczywiste scenariusze pracy. W "Replikacji wykresów" model musi wygenerować kod wizualizacji wyłącznie na podstawie obrazu. "Reprodukcja wykresów" dodaje surowe dane, sprawdzając czy system potrafi stworzyć odpowiedni kod z prawdziwych źródeł danych. Trzecie zadanie, "Udoskonalanie wykresów", symuluje rzeczywisty proces programowania - model otrzymuje błędny kod i musi go naprawić poprzez dialog z użytkownikiem.
Benchmark wykorzystuje dane z 1036 wyselekcjonowanych zbiorów danych Kaggle, co stanowi znaczący krok naprzód w porównaniu z wcześniejszymi testami jak Plot2Code i ChartMimic, które opierały się głównie na syntetycznych danych i prostych pojedynczych wykresach.
Wyniki testów ujawniają wyraźny podział między modelami własnościowymi a open-source. GPT-5.1 OpenAI osiągnął wynik zaledwie 5,4 punktu, znacznie poniżej liderów. Najsłabiej wypadł DeepSeek-VL-7B z zaledwie 9,7% współczynnikiem powodzenia w replikacji wykresów, co oznacza, że generowany kod w ponad 90% przypadków w ogóle się nie uruchamiał.
Zespół badawczy zidentyfikował charakterystyczne wzorce niepowodzeń. Modele open-source często załamują się na etapie wykonywania kodu, wymyślając nieistniejące biblioteki lub wywołując nieprawidłowe funkcje. Z kolei modele własnościowe jak Claude 4.5 i GPT-5.1 rzadko produkują błędy składniowe, ale mają problem z przypisywaniem danych - struktura wizualna wygląda poprawnie, ale poszczególne serie danych trafiają na złe osie lub atrybuty wizualne nie odpowiadają specyfikacji.
Do oceniania zespół wykorzystuje system wieloagentowy, który ocenia wygenerowane wizualizacje w trzystopniowej skali według ośmiu kryteriów, w tym typu wykresu, układu przestrzennego, elementów tekstowych, konfiguracji osi i schematu kolorów. Automatyczne oceny korelują z osądami ekspertów ludzkich z współczynnikiem Cohen's Kappa wynoszącym 0,83, wskazując na silną zgodność.
Badacze przyznają, że benchmark jest obecnie ograniczony do biblioteki Matplotlib, a automatyczne ocenianie może przegapić subtelne artefakty wizualne jak drobne nakładanie się elementów czy precyzyjne niuanse kolorów. Benchmark wraz z kodem jest dostępny na GitHub i Hugging Face.
Badanie pokazuje, że mimo imponujących osiągnięć w wielu obszarach, modele AI nadal mają znaczące trudności z kompleksowymi zadaniami wymagającymi precyzyjnego przetwarzania danych wizualnych i generowania odpowiedniego kodu.