Nowy model Google potrafi przekształcać zdjęcia i filmy w realistyczne deepfake'i. Test pokazał, że jakość jest na tyle wysoka, że oszukała męża dziennikarki.

Źródło zdjęcia: The Verge
Google wprowadza Gemini Omni, nowy model generatywny zdolny do przekształcania dowolnych treści w filmy wideo. Dziennikarka The Verge przetestowała możliwości nowego narzędzia, tworząc filmy z pluszowym jeleniem oraz deepfake'owe nagrania z własnym udziałem. Wyniki okazały się być mieszane — od imponujących po niepokojąco realistyczne.
Dziennikarka ponownie wykorzystała pluszowego jelenia o imieniu Buddy do testów, tworząc dla niego wakacyjne przygody. Model otrzymał zadanie stworzenia montażu pakowania na wakacje i wyruszania na rejs. Omni wykazał się kreatywnością, dodając do bagażu słoik miodu, który później jelenik używał jako kremu przeciwsłonecznego z zabawną kwestią „Uh oh”.
Problemy pojawiły się w szczegółach — słoik miodu ciągle zmieniał formę z pojemnika na butelkę z wodą, a następnie na tubkę. Końcowa klatka filmu wyglądała jak „zwymiotowane elementy całej sekwencji”. Edytowanie przez prompty tekstowe działało lepiej niż w poprzednim modelu Veo, ale wciąż przynosiło nieprzewidywalne rezultaty — usunięcie poroża z jednej sceny skutkowało jego dodaniem do wszystkich pozostałych.
Najciekawsze i jednocześnie najbardziej niepokojące okazały się deepfake'i utworzone z prawdziwego nagrania dziennikarki. Startując od selfie z neutralną miną, Omni wygenerował filmy pokazujące ją podczas jedzenia spaghetti, siedzenia w samolocie i pozowania z bagietką przed Wieżą Eiffla.
Mąż dziennikarki, który oglądał ją codziennie przez ostatnią dekadę, uwierzył w autentyczność nagrania z jedzeniem makaronu. Jedyną wskazówką, że coś jest nie tak, był nieznajomy wygląd miski. Jakość deepfake'ów była na tyle wysoka, że mogłyby oszukać ludzi w mediach społecznościowych, mimo drobnych niedoskonałości jak sztuczny dźwięk sztućców czy powielającą się postać w tle.
Model Omni Flash to pierwszy krok w kierunku uniwersalnego systemu przekształcającego dowolne treści w inne formaty. Choć wyniki są imponujące technologicznie, pozostają pytania o etyczne konsekwencje tak zaawansowanych narzędzi do tworzenia syntetycznych mediów.

Eksperyment pokazuje, że Microsoft Copilot w trybie domyślnym generuje analizy oparte na stereotypach zamiast rzeczywiście czytać dane.

Google testuje technologię renderowania uczestników zdalnych w naturalnych rozmiarach, zwiększając poczucie włączenia o 50%.

Microsoft zaczął odwoływać licencje Claude Code, a Uber wyczerpał budżet AI w 4 miesiące. Rosnące koszty tokenów mogą przewyższać oszczędności.