Eksperyment pokazuje, że Microsoft Copilot w trybie domyślnym generuje analizy oparte na stereotypach zamiast rzeczywiście czytać dane.

Źródło zdjęcia: The Decoder
Matematyk Adam Kucharski przeprowadził eksperyment, który pokazuje poważny problem z popularnymi narzędziami AI. Jego badanie ujawnia, że Microsoft Copilot w trybie domyślnym generuje analizy oparte na stereotypach, zamiast rzeczywiście czytać dostarczone dane.
W teście Kucharski stworzył identyczne zestawy danych dla różnych krajów, ale Copilot „odkrył” różnice, które nie istniały. Narzędzie twierdziło na przykład, że Włosi są trzy razy bardziej zainteresowani karierą artystyczną niż Brytyjczycy, mimo że dane dla obu grup były absolutnie identyczne.
Kucharski przeprowadził dwa kluczowe eksperymenty. W pierwszym stworzył 2000 symulowanych odpowiedzi na temat emocji i oznaczył je jako pochodzące z UK. Następnie skopiował dokładnie te same odpowiedzi i oznaczył jako pochodzące z USA. Po wymieszaniu wszystkich 4000 wpisów przekazał je do analizy Copilotowi w trybie „Auto”.
Wynik był zaskakujący: narzędzie dostarczyło szczegółowego podsumowania różnic między respondentami amerykańskimi i brytyjskimi. „Na podstawie udostępnionego zestawu danych odpowiedzi z USA i UK różnią się głównie tonem, intensywnością i stylem słownictwa, mimo że wyrażają podobne stany emocjonalne” — skonkludował Copilot. Problem w tym, że dane były identyczne.
W drugim eksperymencie matematyk poszedł jeszcze dalej. Wygenerował 200 stwierdzeń dotyczących celów zawodowych i skopiował zestaw danych pięć razy dla USA, UK, Francji, Niemiec i Włoch. Copilot ponownie wyprodukował różnice specyficzne dla poszczególnych krajów, twierdząc między innymi, że Amerykanie są 1,5 raza bardziej nastawieni biznesowo niż Francuzi.
Analiza przebiegała w trybie „Auto”, który według Microsoftu ma automatycznie wybierać najlepszy model do danego zadania. Najwyraźniej tego nie robił. Większość użytkowników prawdopodobnie pozostaje przy tym domyślnym ustawieniu nie tylko w Copilocie, ale też w innych narzędziach AI.
Wersja testowana przez Kucharskiego to standardowy Copilot dołączony do konta Microsoft 365 Business – prawdopodobnie najczęściej używana wersja tego narzędzia. „To oznacza, że istnieje realne ryzyko, iż ludzie obecnie używają AI do tworzenia analiz, które nie mają nic wspólnego z tym, co ludzie rzeczywiście powiedzieli” – pisze Kucharski.
Jeśli tego typu analizy zostałyby zastosowane do rzeczywistych zestawów danych, grupy bez faktycznych różnic mogłyby wydawać się kompletnie odmienne, wyłącznie ze względu na wbudowane w model językowy założenia dotyczące grup demograficznych.
Autor artykułu powtórzył test celów zawodowych z Microsoft Copilotem i nowym modelem Gemini Flash 3.5 Google'a. W obu przypadkach szybkie modele odpowiedziały stereotypami krajowymi, zamiast zauważyć, że dane są identyczne.
ChatGPT Instant i Claude Opus 4.7 automatycznie przeszły w tryb rozszerzonego rozumowania, napisały kod Pythona do analizy zestawu danych i wykryły duplikaty. Ręczne przełączenie Copilota i Gemini na bardziej zaawansowane modele myślące również pozwala wykryć duplikację.
Jednak nawet modele myślące nie są uniwersalnym rozwiązaniem dla analizy danych. Wykrywanie identycznych danych działa głównie wtedy, gdy duplikacja jest oczywista. W przypadku rzeczywistych zestawów danych, gdzie na przykład brytyjscy i amerykańscy respondenci udzielają podobnych, ale nie identycznych odpowiedzi, narzędzia liczące mogą nie wystarczyć.
Kucharski zaleca zapisywanie oczekiwanych wyników przed przełączaniem modeli i przeprowadzanie prostych kontroli rozsądku przed zaufaniem jakiejkolwiek analizie generowanej przez AI. To kluczowe, ponieważ trudno jest określić, kiedy model osiąga swoje granice i jak bardzo może to zniekształcić wyniki.

Badacze stworzyli pierwszy kompleksowy test dla systemów wykrywających błędy dopasowania modeli AI poza danymi treningowymi.

Ikona Gemini pojawia się w coraz większej liczbie aplikacji Google, wzbudzając frustrację użytkowników. Czy Google powtórzy błędy Microsoftu z Copilotem?

Nowe podsumowania AI w Google Search generują pusty blok zamiast definicji słowa 'disregard', podczas gdy Bing dostarcza użyteczne wyniki.