Math Takes Two sprawdza czy agenty AI potrafią rozwinąć wspólny system liczbowy bez wcześniejszej wiedzy matematycznej poprzez komunikację wizualną.

Źródło zdjęcia: arXiv.org

Badanie Claude pokazało, że użytkownicy słabszych agentów AI tracą pieniądze w negocjacjach, ale oceniają sprawiedliwość transakcji tak samo wysoko jak ci z lepszymi modelami.

W pierwszym dniu procesu Musk przeciwko Altmanowi wybrano przysięgłych, z których część wyraziła negatywne opinie o Musku, ale sąd uznał ich za bezstronnych.
Naukowcy z zespołu badawczego Michael Cooper i Samuel Cooper opracowali innowacyjny benchmark o nazwie "Math Takes Two", który ma na celu sprawdzenie, czy modele AI są zdolne do rozwijania umiejętności matematycznych poprzez komunikację bez wcześniejszej wiedzy o systemach liczbowych. Badanie zostało zaakceptowane na warsztatach HCAIR w ramach konferencji ICLR 2026 i dostępne jest w pełnej wersji na arXiv.
Tradycyjne benchmarki matematyczne dla modeli językowych opierają się na zadaniach symbolicznych zakorzenioanych w ustalonych konwencjach matematycznych. Jak podkreślają autorzy, takie podejście ogranicza wgląd w zdolność modeli do konstruowania abstrakcyjnych pojęć z pierwszych zasad. "Math Takes Two" proponuje fundamentalnie inne podejście – zamiast testować znajomość formalnej składni, sprawdza zdolność do emergentnego rozumowania.
Benchmark został zaprojektowany tak, aby dwa agenty bez wcześniejszej wiedzy matematycznej mogły rozwinąć wspólny protokół symboliczny do rozwiązania zadania opartego na wizualnych danych. Kluczowym elementem jest sytuacja, gdzie użycie systemu liczbowego ułatwia ekstrapolację – agenty muszą samodzielnie odkryć, że wprowadzenie abstrakcyjnych symboli numerycznych pomoże im w komunikacji i rozwiązywaniu problemów.
Autorzy opierają swoje podejście na hipotezie, że matematyczna kognicja u ludzi współewoluowała z potrzebą precyzyjnej komunikacji. Ta perspektywa ewolucyjna stanowi podstawę dla konstrukcji benchmarku, który eschews – jak to ujmują autorzy – predefiniowany język matematyczny. Zamiast tego wymaga od agentów odkrycia ukrytych struktur i reprezentacji od zera.
Takie podejście ma potencjał do ujawnienia, czy obserwowane sukcesy modeli językowych w zadaniach matematycznych wynikają z prawdziwego rozumowania, czy też z zaawansowanego dopasowywania wzorców statystycznych w danych treningowych. Benchmark oferuje nowy obiektyw do rozwoju i ewaluacji modeli z emergentnymi zdolnościami numerycznego rozumowania.
"Math Takes Two" stanowi znaczący krok w kierunku głębszego zrozumienia natury matematycznego myślenia w systemach AI, oferując metodę testowania, która wykracza poza powierzchowną znajomość symboli matematycznych w stronę fundamentalnych zdolności poznawczych.