Badanie BankerToolBench pokazało, że GPT-5.4, Claude Opus 4.6 i inne topowe modele AI nie wyprodukują żadnego dokumentu gotowego do klienta.

Źródło zdjęcia: The Decoder
Zespół badawczy z Handshake AI i Uniwersytetu McGill opublikował wyniki testu BankerToolBench, który sprawdził zdolności najnowszych modeli AI w wykonywaniu zadań typowych dla młodszych bankierów inwestycyjnych. Badanie przeprowadzone przez 500 bankierów ujawniło, że żaden z przetestowanych modeli, w tym GPT-5.4 czy Claude Opus 4.6, nie wyprodukował rezultatów gotowych do wysłania do klienta.
Pomimo niedoskonałości, ponad połowa bankierów zadeklarowała, że wykorzystałaby wyniki AI jako punkt wyjścia do dalszej pracy. Badanie rzuca światło na aktualny stan możliwości sztucznej inteligencji w wymagających zadaniach finansowych.
• Żaden model nie zdał testu — ani GPT-5.4, ani Claude Opus 4.6, ani inne przetestowane modele nie wyprodukował ani jednego rezultatu gotowego do bezpośredniego przekazania klientowi
• 41% wyników wymaga gruntownego przepracowania, 27% jest całkowicie bezużytecznych, a jedynie 13% można zaakceptować po niewielkich poprawkach
• GPT-5.4 prowadzi w rankingu, ale wciąż zawodzi w prawie połowie kryteriów oceny, podczas gdy Gemini 2.5 Pro nie przeszedł ani jednego zadania
• Claude Opus 4.6 wygląda dobrze powierzchownie, ale ma fundamentalną wadę — umieszcza sztywne wartości zamiast formuł w modelach Excel, co uniemożliwia analizę scenariuszy
• Najczęstsze błędy to problemy z kodem (41% przypadków), błędna logika biznesowa (27%), przerwane zapytania do danych (18%) i wymyślanie brakujących liczb (13%)
W badaniu wzięło udział około 500 obecnych i byłych bankierów inwestycyjnych z firm takich jak Goldman Sachs, JPMorgan, Evercore, Morgan Stanley i Lazard. Spośród nich 172 osoby zaprojektowały zadania testowe, poświęcając na to łącznie ponad 5700 godzin pracy. Każde ze 100 zadań zajmowało przeciętnemu bankierowi pięć godzin, a niektóre wymagały nawet 21 godzin.
BankerToolBench ocenia rzeczywiste dokumenty, które młodszy bankier przekazałby przełożonemu: modele finansowe w Excelu z działającymi formułami, prezentacje PowerPoint na spotkania z klientami, raporty PDF i notatki Word. Agenty AI musiały przeszukiwać sale danych, korzystać z platform danych rynkowych jak FactSet i Capital IQ oraz analizować dokumenty SEC.
Każdy rezultat był sprawdzany według kryteriów opracowanych przez bankierów, średnio 150 indywidualnych punktów kontrolnych. Kryteria obejmowały sześć obszarów: poprawność techniczną, gotowość dla klienta, zgodność z przepisami, możliwość audytu oraz spójność między plikami.
GPT-5.4 osiągnął najlepszy wynik z 58,1 punktów na 100 możliwych i wygrał z GPT-5.2 w 70% bezpośrednich porównań zadań. Jednak tylko 16% jego rezultatów bankierzy uznali za użyteczny punkt wyjścia, a gdy wymagano trzech spójnych prób, liczba ta spadła do 13%.
Claude Opus 4.6 pokazał szczególnie podstępny problem. Chociaż jego wyniki wyglądały profesjonalnie na pierwszy rzut oka, modele Excel zawierały fundamentalną wadę — większość kluczowych liczb była wprowadzona jako stałe wartości zamiast kalkulowanych formuł. W bankowości inwestycyjnej to dyskwalifikujący błąd, ponieważ uniemożliwia analizę scenariuszy.
Przykłady błędów pokazują, jak subtelne mogą być problemy. W jednej prezentacji system weryfikujący znalazł przychody w wysokości 189,5 miliarda dolarów na jednym slajdzie i 201,0 miliarda na następnym, oba dotyczące tego samego okresu. W innym przypadku agent użył czerwieni Netflixa jako koloru akcentującego, mimo że przewodnik stylu banku wymagał jednolitego niebieskiego.
Modele generalnie radziły sobie lepiej z zadaniami PowerPoint niż z pracą w Excelu. Najtrudniejsze okazały się zadania z rynków kapitału dłużnego, modeli fuzji i tabel struktury kapitałowej.
Wyniki badania pokazują, że mimo imponujących możliwości najnowszych modeli AI, do pracy w wymagającym środowisku bankowości inwestycyjnej wciąż potrzebują znaczącego nadzoru ludzkiego.