Badanie rosyjskich naukowców pokazuje, że proste nakładanie siatki na wykresy redukuje błąd modeli AI z 25,5% do 19,5% — lepiej niż zaawansowane metody.

Źródło zdjęcia: arXiv.org
Naukowcy z Rosji przeprowadzili badanie porównujące różne metody poprawy dokładności wielomodalnych modeli językowych w zadaniach ekstrakcji danych z wykresów naukowych. Wyniki, opublikowane w , pokazują, że proste podejście przestrzenne znacznie przewyższa skomplikowane metody semantyczne.

Autor seriali dla BBC i Paramount opisuje swoją drugą karierę jako trener sztucznej inteligencji, zmuszony do tego przez kryzys w branży rozrywkowej.

Jensen Huang porównał start kariery absolwentów Carnegie Mellon do rewolucji AI, podkreślając że to największa transformacja technologiczna w historii.
Automatyczna ekstrakcja danych z wykresów naukowych stanowi kluczowe zadanie dla wielkoskalowej analizy literatury. Wielomodalne modele językowe wykazują potencjał w tym obszarze, jednak ich dokładność na niestandardowych wykresach pozostaje wyzwaniem.
Zespół badawczy pod kierunkiem Andrei Lazarev, Dmitrii Sedov i Alexander Galkin postawił fundamentalne pytanie badawcze: która strategia jest najskuteczniejsza w poprawie wydajności modeli — semantyczne wskazówki wysokiego poziomu czy przestrzenne wskazówki niskiego poziomu?
Badacze przeprowadzili eksploracyjne eksperymenty z metodami semantycznymi, testując dwuetapowy framework metadata-first oraz technikę Chain-of-Thought. Żadna z tych zaawansowanych metod nie przyniosła statystycznie istotnej poprawy wyników.
W przeciwieństwie do tego, proste podejście przestrzenne okazało się wysoce skuteczne. Metoda polegała na nakładaniu siatki współrzędnych na obraz wykresu przed analizą. To proste rozwiązanie zapewniło statystycznie istotną redukcję błędu ekstrakcji danych.
Kluczowy eksperyment ilościowy przeprowadzony na syntetycznym zbiorze danych wykazał znaczącą przewagę podejścia przestrzennego. Błąd SMAPE (Symmetric Mean Absolute Percentage Error) został zredukowany z 25,5% do 19,5%, co stanowi statystycznie istotną poprawę (p < 0,05) w porównaniu do bazowego podejścia.
Wyniki sugerują, że dostarczanie wyraźnego kontekstu przestrzennego jest bardziej skuteczną i niezawodną strategią niż semantyczne wskazówki wysokiego poziomu dla tej klasy zadań, przynajmniej w przypadku obecnej generacji modeli multimodalnych.
Badanie, zaakceptowane do publikacji na 7. Międzynarodowej Konferencji SUMMA 2025, wnosi istotny wkład w zrozumienie optymalnych strategii poprawy wydajności modeli AI w zadaniach związanych z analizą danych wizualnych.