26 kwietnia 20264 min czytania

500 bankierów przetestowało modele AI - żaden nie zdał egzaminu na bankowość inwestycyjną

Badanie BankerToolBench pokazało, że GPT-5.4, Claude Opus 4.6 i inne topowe modele AI nie wyprodukują żadnego dokumentu gotowego do klienta.

Źródło zdjęcia: The Decoder

Poprzedni

Wzrost zatrudnienia programistów w USA spadł o połowę od premiery ChatGPT - badanie Fed

Kluczowe wnioski

• Żaden model nie zdał testu — ani GPT-5.4, ani Claude Opus 4.6, ani inne przetestowane modele nie wyprodukował ani jednego rezultatu gotowego do bezpośredniego przekazania klientowi

• 41% wyników wymaga gruntownego przepracowania, 27% jest całkowicie bezużytecznych, a jedynie 13% można zaakceptować po niewielkich poprawkach

• GPT-5.4 prowadzi w rankingu, ale wciąż zawodzi w prawie połowie kryteriów oceny, podczas gdy Gemini 2.5 Pro nie przeszedł ani jednego zadania

• Claude Opus 4.6 wygląda dobrze powierzchownie, ale ma fundamentalną wadę — umieszcza sztywne wartości zamiast formuł w modelach Excel, co uniemożliwia analizę scenariuszy

• Najczęstsze błędy to problemy z kodem (41% przypadków), błędna logika biznesowa (27%), przerwane zapytania do danych (18%) i wymyślanie brakujących liczb (13%)

Metodologia i zakres testów

W badaniu wzięło udział około 500 obecnych i byłych bankierów inwestycyjnych z firm takich jak Goldman Sachs, JPMorgan, Evercore, Morgan Stanley i Lazard. Spośród nich 172 osoby zaprojektowały zadania testowe, poświęcając na to łącznie ponad 5700 godzin pracy. Każde ze 100 zadań zajmowało przeciętnemu bankierowi pięć godzin, a niektóre wymagały nawet 21 godzin.

BankerToolBench ocenia rzeczywiste dokumenty, które młodszy bankier przekazałby przełożonemu: modele finansowe w Excelu z działającymi formułami, prezentacje PowerPoint na spotkania z klientami, raporty PDF i notatki Word. Agenty AI musiały przeszukiwać sale danych, korzystać z platform danych rynkowych jak FactSet i Capital IQ oraz analizować dokumenty SEC.

Każdy rezultat był sprawdzany według kryteriów opracowanych przez bankierów, średnio 150 indywidualnych punktów kontrolnych. Kryteria obejmowały sześć obszarów: poprawność techniczną, gotowość dla klienta, zgodność z przepisami, możliwość audytu oraz spójność między plikami.

Szczegółowe wyniki i problemy

GPT-5.4 osiągnął najlepszy wynik z 58,1 punktów na 100 możliwych i wygrał z GPT-5.2 w 70% bezpośrednich porównań zadań. Jednak tylko 16% jego rezultatów bankierzy uznali za użyteczny punkt wyjścia, a gdy wymagano trzech spójnych prób, liczba ta spadła do 13%.

Claude Opus 4.6 pokazał szczególnie podstępny problem. Chociaż jego wyniki wyglądały profesjonalnie na pierwszy rzut oka, modele Excel zawierały fundamentalną wadę — większość kluczowych liczb była wprowadzona jako stałe wartości zamiast kalkulowanych formuł. W bankowości inwestycyjnej to dyskwalifikujący błąd, ponieważ uniemożliwia analizę scenariuszy.

Przykłady błędów pokazują, jak subtelne mogą być problemy. W jednej prezentacji system weryfikujący znalazł przychody w wysokości 189,5 miliarda dolarów na jednym slajdzie i 201,0 miliarda na następnym, oba dotyczące tego samego okresu. W innym przypadku agent użył czerwieni Netflixa jako koloru akcentującego, mimo że przewodnik stylu banku wymagał jednolitego niebieskiego.

Modele generalnie radziły sobie lepiej z zadaniami PowerPoint niż z pracą w Excelu. Najtrudniejsze okazały się zadania z rynków kapitału dłużnego, modeli fuzji i tabel struktury kapitałowej.

Wyniki badania pokazują, że mimo imponujących możliwości najnowszych modeli AI, do pracy w wymagającym środowisku bankowości inwestycyjnej wciąż potrzebują znaczącego nadzoru ludzkiego.

Kluczowe wnioski

Metodologia i zakres testów

Szczegółowe wyniki i problemy

Źródła