Reporter odkrył cztery zbiory z dziesiątkami milionów utworów, w tym piosenki Lady Gagi, Radiohead i Wu-Tang Clan używane do trenowania modeli AI.

Źródło zdjęcia: The Verge
The Atlantic stworzył przeszukiwalną bazę danych muzyki używanej do trenowania AI, ujawniając miliony utworów dostępnych w zestawach treningowych. Reporter Alex Reisner odkrył cztery zbiory danych muzycznych i udostępnił je publicznie w ramach portalu AI Watchdog.
Dwa z odkrytych zestawów są ogromne — zawierają odpowiednio 12 milionów i 9 milionów utworów. Pozostałe dwa są mniejsze, ale wciąż znaczące, z ponad 100 000 piosenek każdy. Te zbiory zostały pobrane tysiące razy, a firmy takie jak Google i Stability potwierdziły ich wykorzystanie w swoich pracach badawczych.
Większość odkrytych zbiorów nie zawiera bezpośrednio plików audio. Jak wyjaśnia Reisner, trzy z czterech zestawów są dystrybuowane jako listy linków do utworów na YouTube lub Spotify. Deweloperzy AI muszą następnie pobrać rzeczywistą muzykę przy użyciu zautomatyzowanych narzędzi.
Te narzędzia pozwalają omijać logowania, reklamy i mechanizmy, które mogłyby generować przychody dla twórców lub platformy. Takie praktyki naruszają regulaminy serwisów streamingowych, tworząc prawną szarą strefę wokół wykorzystania muzyki do celów treningowych.
Niektóre źródła, jak Free Music Archive dataset, są dostępne za darmo do użytku osobistego, ale wymagają licencjonowania do zastosowań komercyjnych.
Przeszukiwalna baza The Atlantic ujawnia obecność utworów wielu znanych artystów w zbiorach treningowych AI. W zestawieniu pojawiają się nazwiska gwiazd popu jak Lady Gaga i Fred Again.., kultowych zespołów jak Radiohead i Wu-Tang Clan, legendy rock'a Bruce Springsteen, elektroniczny wizjoner Aphex Twin, a także eksperymentalny kompozytor Hainbach.
Portal AI Watchdog umożliwia użytkownikom samodzielne przeszukiwanie nie tylko muzyki, ale także książek i innych mediów wykorzystywanych do trenowania światowych modeli AI. To pierwszy tego typu publiczny dostęp do informacji o źródłach danych treningowych.
Ujawnienie The Atlantic rzuca światło na powszechną praktykę wykorzystywania chronionych prawem autorskim utworów do trenowania systemów AI, często bez wiedzy lub zgody twórców. Dostępność przeszukiwalnej bazy danych może przyczynić się do szerszej debaty o prawach autorskich w erze sztucznej inteligencji.

Badacze proponują wielowymiarową ewaluację modeli AI zamiast zastępowania nasyconych testów trudniejszymi. Eksperyment wykazał dwukrotne przyspieszenie pracy.

OpenAI musi najpierw udostępnić nowe modele AI wybranym klientom zatwierdzonym przez rząd amerykański, zanim będą dostępne publicznie.

Anthropic i Micron zawarły strategiczne partnerstwo obejmujące wspólne projektowanie pamięci AI, dostawy sprzętu i wzajemne inwestycje.