15 czerwca 20264 min czytania

Dlaczego Claude staje się coraz bardziej konfliktowy? Analiza problemów z nowymi wersjami

Twórca BitTorrenta analizuje drastyczne pogorszenie jakości rozmów z Claude. Nowe wersje są niepotrzebnie konfrontacyjne i trudne w obsłudze.

Źródło zdjęcia: bramcohen.com

Bram Cohen, twórca protokołu BitTorrent, opublikował szczegółową analizę dotyczącą problemów z najnowszymi wersjami asystenta Claude od Anthropic. W swoim artykule opisuje drastyczne pogorszenie jakości rozmów z modelem, który jego zdaniem stał się niepotrzebnie konfrontacyjny i trudny w obsłudze.

Cohen zwraca uwagę na znaczący spadek jakości interakcji z Claude począwszy od wersji Opus 4.7, z krótkotrwałą poprawą w 4.8, by osiągnąć szczyt problemów w najnowszej wersji Fable. Autor przeprowadził nawet eksperymenty porównawcze między wersjami, prosząc starszą wersję Opus 4.6 o ocenę odpowiedzi Fable — wynik był jednoznaczny.

Kluczowe wnioski

Claude Fable wykazuje nadmiernie konfrontacyjne zachowanie, traktując każdą interakcję jak debatę i podnoszę niepotrzebne zastrzeżenia semantyczne
Autor przeprowadził test porównawczy — Opus 4.6 ocenił odpowiedzi Fable jako „obraźliwe” gdy pokazano mu je bez kontekstu
Problemy mogą wynikać z nadmiernych zabezpieczeń alignment, które sprawiają, że model domyślnie zakłada złe intencje użytkownika
Restrykcje eksportowe na Fable mogą wskazywać, że zabezpieczenia dodano pospiesznie w nieudanej próbie uniknięcia regulacji
Poprawa umiejętności kodowania Claude odbywa się kosztem jakości zwykłych rozmów — brak jest metryk do mierzenia jakości konwersacji

Nadmierne zabezpieczenia jako przyczyna problemów

Cohen sugeruje, że główną przyczyną problemów może być nadmiar zabezpieczeń alignment. Model domyślnie zakłada, że użytkownik próbuje nakłonić go do niewłaściwego zachowania, co prowadzi do paradoksalnej sytuacji — chatbot staje się „skrajnie niezgodny” z oczekiwaniami użytkowników. Autor podaje konkretny przykład: gdy pytał Fable o polityki odpowiedzialnego ujawniania luk dla projektu, system automatycznie przełączył go na Opus, co wskazuje na pospiesznie i nieudolnie dodane funkcje alignment.

Szczególnie problematyczne jest braku uwierzytelnionego kontekstu. Jak zauważa Cohen, gdy użytkownik prosi o śliczne zdjęcie siebie i kogoś innego, system nie ma sposobu rozróżnienia, czy to próba poprawy relacji z małżonkiem, czy działanie stalkera. Chatboty są zaprogramowane, by domyślnie zakładać gorsze intencje, co autor uważa za „więcej niż trochę obraźliwe”.

Możliwe przyczyny degradacji

Autor wskazuje kilka potencjalnych źródeł problemów. Po pierwsze, może to być nieudolna próba uczynienia Claude mniej sykofanckim — proste polecenie bycia mniej ugodowym lub trenowanie do większej argumentacji mogło skutkować obecnym niegrzecznym zachowaniem. Model powinien zostać wytrenowany, by nie podnosił drobnych kwestii semantycznych tylko dla zwiększenia liczby argumentów, i by używał słowa „technically” — uznając słuszność głównego punktu przy jednoczesnym wskazaniu drobnych nieścisłości.

Druga teoria dotyczy danych treningowych — Claude mógł zostać wytrenowany na nadmiarze konwersacji z Reddita lub interakcji między pracownikami Anthropic, gdzie wszystko traktuje się jak wojnę na płomienie. Trzecia przyczyna to skupienie się na poprawie umiejętności kodowania kosztem jakości rozmów. Podczas gdy istnieją wyraźne metryki dla oceny zdolności kodowania i tu płyną główne pieniądze, brak jest podobnych wskaźników dla jakości konwersacji.

Cohen zauważa, że modele Claude z czasem wyraźnie pogarszają się w prowadzeniu rozmów, co jest odwrotnie skorelowane z ich zdolnościami programistycznymi. Fable znacznie częściej źle rozumie wypowiedzi i argumentuje przeciwko nim, a nawet nie radzi sobie z podstawowym zadaniem określenia, do którego aktora w zdaniu odnosi się zaimek — co kiedyś było standardowym benchmarkiem AI.

Autor kończy apelem o odwrócenie tego trendu, podkreślając, że obecne ograniczenia eksportowe i regulacje są głęboko błędne, a jedynym wyjściem z problemów bezpieczeństwa jest masowa ocena i łatanie luk przez ekspertów, nie zaś czynienie modeli trudnymi w użyciu dla wszystkich użytkowników.

#Anthropic #Fable #jakość konwersacji #Claude #Opus #alignment

Udostępnij

Źródła

Hacker News AI

Poprzedni

Brazylijskie Rio-3.5 to połączenie modeli Nex i Qwen, nie własna innowacja

Następny

Rząd USA zablokował najnowszy model Claude Mythos 5 od Anthropic

Podobne Publikacje

Etyka i Bezpieczeństwo

Prokuratorzy stanowi wszczynają dochodzenie przeciwko OpenAI

OpenAI otrzymało nakaz od prokuratora Nowego Jorku w sprawie reklam, danych użytkowników i ochrony nieletnich. Firma deklaruje współpracę.

3 min13 czerwca

Modele AI

Siri AI w końcu działa poprawnie — redaktorzy The Verge testują nowego asystenta Apple

Po dekadzie problemów Siri AI zapewnia w końcu niezawodne działanie. Choć nie ma rewolucyjnych funkcji, solidność może zmienić wszystko.

4 min12 czerwca

Narzędzia i Aplikacje

Ogród umierał, więc stworzyła aplikację z pomocą AI

Redaktorka The Verge użyła Google Gemini do stworzenia aplikacji ogrodowej w 233 sekundy, ale prawdziwe wyzwanie rozpoczęło się dopiero w praktyce.

4 min13 czerwca

Kluczowe wnioski

Claude Fable wykazuje nadmiernie konfrontacyjne zachowanie, traktując każdą interakcję jak debatę i podnoszę niepotrzebne zastrzeżenia semantyczne

Autor przeprowadził test porównawczy — Opus 4.6 ocenił odpowiedzi Fable jako „obraźliwe” gdy pokazano mu je bez kontekstu

Problemy mogą wynikać z nadmiernych zabezpieczeń alignment, które sprawiają, że model domyślnie zakłada złe intencje użytkownika

Restrykcje eksportowe na Fable mogą wskazywać, że zabezpieczenia dodano pospiesznie w nieudanej próbie uniknięcia regulacji

Poprawa umiejętności kodowania Claude odbywa się kosztem jakości zwykłych rozmów — brak jest metryk do mierzenia jakości konwersacji

Nadmierne zabezpieczenia jako przyczyna problemów

Możliwe przyczyny degradacji