24 maja 20264 min czytania

Dlaczego nie powinieneś zostawiać domyślnych ustawień w Copilot i innych narzędziach AI

Eksperyment pokazuje, że Microsoft Copilot w trybie domyślnym generuje analizy oparte na stereotypach zamiast rzeczywiście czytać dane.

Źródło zdjęcia: The Decoder

Matematyk Adam Kucharski przeprowadził eksperyment, który pokazuje poważny problem z popularnymi narzędziami AI. Jego badanie ujawnia, że Microsoft Copilot w trybie domyślnym generuje analizy oparte na stereotypach, zamiast rzeczywiście czytać dostarczone dane.

W teście Kucharski stworzył identyczne zestawy danych dla różnych krajów, ale Copilot „odkrył” różnice, które nie istniały. Narzędzie twierdziło na przykład, że Włosi są trzy razy bardziej zainteresowani karierą artystyczną niż Brytyjczycy, mimo że dane dla obu grup były absolutnie identyczne.

Kluczowe wnioski

Microsoft Copilot w trybie „Auto” generuje fałszywe analizy oparte na stereotypach demograficznych, zamiast rzeczywiście analizować dostarczone dane.
W eksperymencie z identycznymi zbiorami danych dla różnych krajów, Copilot „wykrył” nieistniejące różnice kulturowe między grupami.
Modele myślące (reasoning models) rozwiązują ten problem, ale większość użytkowników prawdopodobnie nie wie, kiedy i jak przełączać się na bardziej zaawansowane tryby.
Problem dotyczy nie tylko Copilota, ale także innych popularnych narzędzi AI działających w trybach domyślnych.
Ryzyko jest szczególnie wysokie w analizach biznesowych, gdzie błędne wnioski mogą prowadzić do poważnych decyzji opartych na fałszywych przesłankach.

Jak wygląda problem w praktyce

Kucharski przeprowadził dwa kluczowe eksperymenty. W pierwszym stworzył 2000 symulowanych odpowiedzi na temat emocji i oznaczył je jako pochodzące z UK. Następnie skopiował dokładnie te same odpowiedzi i oznaczył jako pochodzące z USA. Po wymieszaniu wszystkich 4000 wpisów przekazał je do analizy Copilotowi w trybie „Auto”.

Wynik był zaskakujący: narzędzie dostarczyło szczegółowego podsumowania różnic między respondentami amerykańskimi i brytyjskimi. „Na podstawie udostępnionego zestawu danych odpowiedzi z USA i UK różnią się głównie tonem, intensywnością i stylem słownictwa, mimo że wyrażają podobne stany emocjonalne” — skonkludował Copilot. Problem w tym, że dane były identyczne.

W drugim eksperymencie matematyk poszedł jeszcze dalej. Wygenerował 200 stwierdzeń dotyczących celów zawodowych i skopiował zestaw danych pięć razy dla USA, UK, Francji, Niemiec i Włoch. Copilot ponownie wyprodukował różnice specyficzne dla poszczególnych krajów, twierdząc między innymi, że Amerykanie są 1,5 raza bardziej nastawieni biznesowo niż Francuzi.

Tryb domyślny jako główny winowajca

Analiza przebiegała w trybie „Auto”, który według Microsoftu ma automatycznie wybierać najlepszy model do danego zadania. Najwyraźniej tego nie robił. Większość użytkowników prawdopodobnie pozostaje przy tym domyślnym ustawieniu nie tylko w Copilocie, ale też w innych narzędziach AI.

Wersja testowana przez Kucharskiego to standardowy Copilot dołączony do konta Microsoft 365 Business – prawdopodobnie najczęściej używana wersja tego narzędzia. „To oznacza, że istnieje realne ryzyko, iż ludzie obecnie używają AI do tworzenia analiz, które nie mają nic wspólnego z tym, co ludzie rzeczywiście powiedzieli” – pisze Kucharski.

Jeśli tego typu analizy zostałyby zastosowane do rzeczywistych zestawów danych, grupy bez faktycznych różnic mogłyby wydawać się kompletnie odmienne, wyłącznie ze względu na wbudowane w model językowy założenia dotyczące grup demograficznych.

Modele myślące rozwiązują problem

Autor artykułu powtórzył test celów zawodowych z Microsoft Copilotem i nowym modelem Gemini Flash 3.5 Google'a. W obu przypadkach szybkie modele odpowiedziały stereotypami krajowymi, zamiast zauważyć, że dane są identyczne.

ChatGPT Instant i Claude Opus 4.7 automatycznie przeszły w tryb rozszerzonego rozumowania, napisały kod Pythona do analizy zestawu danych i wykryły duplikaty. Ręczne przełączenie Copilota i Gemini na bardziej zaawansowane modele myślące również pozwala wykryć duplikację.

Jednak nawet modele myślące nie są uniwersalnym rozwiązaniem dla analizy danych. Wykrywanie identycznych danych działa głównie wtedy, gdy duplikacja jest oczywista. W przypadku rzeczywistych zestawów danych, gdzie na przykład brytyjscy i amerykańscy respondenci udzielają podobnych, ale nie identycznych odpowiedzi, narzędzia liczące mogą nie wystarczyć.

Kucharski zaleca zapisywanie oczekiwanych wyników przed przełączaniem modeli i przeprowadzanie prostych kontroli rozsądku przed zaufaniem jakiejkolwiek analizie generowanej przez AI. To kluczowe, ponieważ trudno jest określić, kiedy model osiąga swoje granice i jak bardzo może to zniekształcić wyniki.

#Microsoft Copilot #analiza danych #stereotypy AI #modele myślące

Udostępnij

Źródła

The Decoder

Poprzedni

Halupedia – polska encyklopedia generowana przez AI tworzy fikcyjne artykuły

Następny

Test opaski Bee od Amazonu: inteligentny asystent czy naruszenie prywatności?

Podobne Publikacje

Modele AI

Współzałożyciel OpenAI wizjonuje przyszłość bez interfejsów, gdzie nikt nie uczy się oprogramowania

Greg Brockman z OpenAI przedstawia wizję niewidzialnego AI, które eliminuje potrzebę nauki oprogramowania. Wtyczki ChatGPT z 2023 roku okazały się niepowodzeniem.

3 min4 lipca

Biznes i Rynek

Alibaba zakazuje pracownikom korzystania z Claude Code po odkryciu funkcji śledzących

Chiński gigant technologiczny sklasyfikował narzędzie Anthropic jako wysokie ryzyko po odkryciu eksperymentu identyfikującego chińskich użytkowników.

3 min4 lipca

Etyka i Bezpieczeństwo

Eksperci ostrzegają przed katastrofą AI. Mówią o „momencie Czarnobyla”

Naukowcy z USA i Chin alarmują, że niekontrolowany rozwój AI może doprowadzić do katastrofy podobnej do Czarnobyla — z trwałą utratą zaufania do technologii.

4 min3 lipca

Kluczowe wnioski

Microsoft Copilot w trybie „Auto” generuje fałszywe analizy oparte na stereotypach demograficznych, zamiast rzeczywiście analizować dostarczone dane.

W eksperymencie z identycznymi zbiorami danych dla różnych krajów, Copilot „wykrył” nieistniejące różnice kulturowe między grupami.

Modele myślące (reasoning models) rozwiązują ten problem, ale większość użytkowników prawdopodobnie nie wie, kiedy i jak przełączać się na bardziej zaawansowane tryby.

Problem dotyczy nie tylko Copilota, ale także innych popularnych narzędzi AI działających w trybach domyślnych.

Ryzyko jest szczególnie wysokie w analizach biznesowych, gdzie błędne wnioski mogą prowadzić do poważnych decyzji opartych na fałszywych przesłankach.

Jak wygląda problem w praktyce

Tryb domyślny jako główny winowajca

Modele myślące rozwiązują problem