Redakcje czasopism naukowych są zalewane AI-generowanymi artykułami coraz trudniejszymi do wykrycia. System peer-review może osiągnąć punkt krytyczny.

Źródło zdjęcia: The Verge

Microsoft wprowadza w Edge funkcje AI, które analizują wszystkie karty, tworzą podcasty i quizy. Copilot otrzymuje długoterminową pamięć.

Tencent planuje znacznie zwiększyć inwestycje w infrastrukturę AI w drugiej połowie 2026 roku, licząc na poprawę dostępności krajowych chipów.
Peter Degen, badacz z Uniwersytetu w Zurychu, odkrył niepokojące zjawisko: jego artykuł z 2017 roku zaczął być cytowany setki razy w podobnych publikacjach. Okazało się, że są to masowo produkowane prace badawcze wykorzystujące sztuczną inteligencję. Problem dotyczy całego świata nauki — jak pisze The Verge, redakcje czasopism naukowych są zalewane AI-generowanymi artykułami, które są coraz trudniejsze do wykrycia.
Degen odkrył, że cytujące prace analizowały dane z Global Burden of Disease study, ale wykorzystywały je do masowej produkcji prognoz na temat różnych chorób. Trop doprowadził go do chińskiej firmy z Guangzhou, która oferuje kursy tworzenia publikacji naukowych w mniej niż dwie godziny przy użyciu AI.
Przez ostatnią dekadę wydawnictwa naukowe zmagały się z tzw. „paper mills” — firmami produkującymi masowo artykuły i sprzedającymi miejsce w autorach naukowcom potrzebującym publikacji. To była gra w kotka i myszkę — wydawcy, często pod presją „detektywów naukowych” specjalizujących się w wykrywaniu oszustw, zamykali jedną lukę, a młyny znajdowały nową.
AI początkowo pomagało młynom omijać detektory plagiatu przez tworzenie nowych obrazów i tekstów. Jednak charakterystyczne „halucynacje” technologii pozwalały teoretycznie na wykrywanie takiej produkcji. W praktyce artykuły nadal przechodziły, by później zostać wycofane po odkryciu diagramów szczurów z niewytłumaczalnie wielkimi narządami płciowymi opisanymi jako „testtomcels” lub tekstu z pozostawionymi frazami „as an AI assistant”.
Matt Spick, wykładowca na University of Surrey i redaktor w Scientific Reports, zauważył zjawisko po otrzymaniu trzech uderzająco podobnych artykułów analizujących amerykańską bazę danych NHANES. Sprawdzenie Google Scholar ujawniło nagły wzrost publikacji cytujących NHANES, wszystkie według podobnej formuły — każda rzekomo odkrywająca związek między na przykład jedzeniem orzechów włoskich a funkcjami poznawczymi czy piciem odtłuszczonego mleka a depresją.
„Jeśli masz wystarczającą moc obliczeniową, przechodzisz przez wszystko i mierzysz każdą parę powiązań, a w końcu znajdziesz takie, o których jeszcze nie pisano i po prostu publikujesz: jest korelacja między tym a tamtym” — wyjaśnia Spick. Te korelacje to często mylące uproszczenia zjawisk o wielu przyczynach lub przypadkowe fluktacje statystyczne.
Spick podaje absurdalny przykład: „Jedna z prac twierdziła, że liczba lat edukacji powoduje powikłania przepukliny pooperacyjnej. To po prostu przypadkowa korelacja. Co mam z tym zrobić? Wcześnie skończyć szkołę, żeby nie mieć później powikłań przepukliny pooperacyjnej?”
Problem polega na tym, że obecne AI może produkować przekonujące artykuły niemal hurtowo, pozwalając desperackim naukowcom samodzielnie produkować publikacje. Rezultatem jest potop naukowego „śmiecia”, który zagraża zalaniem systemu publikowania, recenzowania, przyznawania grantów i całego współczesnego systemu badawczego.