OpenAI zaprezentowało ChatGPT Images 2.0 z przełomową funkcją myślenia przed generowaniem. Model tworzy do 8 spójnych obrazów z jednego polecenia.

Źródło zdjęcia: The Decoder
OpenAI oficjalnie zaprezentowało ChatGPT Images 2.0, nowy model generowania obrazów, który wprowadza przełomową funkcję "myślenia" przed tworzeniem grafik. System może teraz generować nawet osiem spójnych obrazów z jednego polecenia i znacznie lepiej radzi sobie z tekstem, szczególnie w alfabetach niełacińskich. Szczegóły techniczne i cennik dostępne są w oryginalnym artykule.
Nowy model, działający pod nazwą GPT Image 2, dzieli podstawową funkcjonalność z konkurencyjnym Google Nano Banana Pro — potrafi "myśleć" przed generowaniem, poświęcając więcej lub mniej czasu na rozumowanie w zależności od wybranego trybu, a nawet przeszukiwać internet w trakcie tego procesu.
• Tryb myślenia: ChatGPT Images 2.0 może generować do 8 spójnych obrazów jednocześnie, zachowując konsystentność postaci, obiektów i stylów między scenami • Lepsza jakość dla wszystkich: Wszyscy użytkownicy ChatGPT otrzymują poprawę jakości obrazów, szczególnie w obsłudze małych tekstów, ikonografii i złożonych kompozycji • Elastyczne formaty: Model obsługuje proporcje od 3:1 (ultra-szeroki) do 1:3 (ultra-wysoki) z rozdzielczością do 2K przez API • Cennik tokenowy: Koszt generowania obrazu 1024x1024 waha się od 0,006$ (niska jakość) do 0,211$ (wysoka jakość) • Zastosowania biznesowe: OpenAI wskazuje reklamy lokalizowane, infografiki, treści edukacyjne i narzędzia projektowe jako główne obszary wykorzystania
Według wpisu na blogu firmy, tryb myślenia ma prowadzić do większej różnorozności i dokładności generowanych obrazów. Rozszerzone funkcje z trybem myślenia są jednak dostępne wyłącznie dla użytkowników ChatGPT Plus, Pro i Business.
Z włączonym trybem myślenia ChatGPT Images 2.0 może tworzyć całe serie spójnych obrazów. OpenAI podaje jako przykłady zastosowań: generowanie całostronicowych mang z jednego zdjęcia i polecenia tekstowego, serie grafik do mediów społecznościowych oraz plany projektowe dla różnych pomieszczeń w domu.
Model został zaprojektowany do obsługi szczegółowych elementów, z którymi poprzednie modele konsystentnie miały problemy: małe teksty, ikonografia, elementy interfejsu użytkownika, gęste kompozycje i subtelne instrukcje stylistyczne.
Deweloperzy mogą zintegrować model ze swoimi produktami przez API pod nazwą gpt-image-2. OpenAI nalicza opłaty na podstawie tokenów: 8$ za milion tokenów wejściowych obrazów i 30$ za milion tokenów wyjściowych obrazów. Tokeny tekstowe kosztują 5$ (wejście) i 10$ (wyjście) za milion.
W praktyce koszty za obraz znacznie się różnią w zależności od jakości i rozdzielczości. Według przeglądu cenowego OpenAI, obraz 1024x1024 w niskiej jakości kosztuje zaledwie 0,006$, w średniej jakości 0,053$, a w wysokiej jakości 0,211$. Większe rozdzielczości jak 1024x1536 są faktycznie nieco tańsze i kosztują odpowiednio 0,005$, 0,041$ i 0,165$.
Przy większych rozdzielczościach GPT Image 2 jest tańszy od poprzedników: format 1024x1536 w wysokiej jakości kosztuje 0,165$, w porównaniu do 0,20$ dla GPT Image 1.5. Przy standardowej rozdzielczości 1024x1024 w wysokiej jakości nowy model jest jednak droższy — 0,211$ wobec 0,133$ dla GPT Image 1.5.
ChatGPT Images 2.0 stanowi znaczący krok naprzód w generowaniu obrazów AI, łącząc możliwość rozumowania z praktycznymi zastosowaniami biznesowymi i ulepszoną obsługą tekstu w różnych formatach.

Meta uruchamia nowego asystenta AI dla twórców, który oferuje spersonalizowane rekomendacje i pomoc w analizie wydajności treści na Facebooku.

Jensen Huang przedstawił wizję całkowicie nowej kategorii laptopów AI. Redaktorzy The Vergecast analizują, czy przemysł rzeczywiście potrzebuje takiej rewolucji.

National Weather Service wykorzystuje AI do błyskawicznego tłumaczenia ostrzeżeń meteorologicznych dla 69 mln mieszkańców mówiących w domu w językach innych niż angielski.