OpenAI zaprezentowało ChatGPT Images 2.0 z przełomową funkcją myślenia przed generowaniem. Model tworzy do 8 spójnych obrazów z jednego polecenia.

Źródło zdjęcia: The Decoder
OpenAI oficjalnie zaprezentowało ChatGPT Images 2.0, nowy model generowania obrazów, który wprowadza przełomową funkcję "myślenia" przed tworzeniem grafik. System może teraz generować nawet osiem spójnych obrazów z jednego polecenia i znacznie lepiej radzi sobie z tekstem, szczególnie w alfabetach niełacińskich. Szczegóły techniczne i cennik dostępne są w oryginalnym artykule.
Nowy model, działający pod nazwą GPT Image 2, dzieli podstawową funkcjonalność z konkurencyjnym Google Nano Banana Pro — potrafi "myśleć" przed generowaniem, poświęcając więcej lub mniej czasu na rozumowanie w zależności od wybranego trybu, a nawet przeszukiwać internet w trakcie tego procesu.
• Tryb myślenia: ChatGPT Images 2.0 może generować do 8 spójnych obrazów jednocześnie, zachowując konsystentność postaci, obiektów i stylów między scenami • Lepsza jakość dla wszystkich: Wszyscy użytkownicy ChatGPT otrzymują poprawę jakości obrazów, szczególnie w obsłudze małych tekstów, ikonografii i złożonych kompozycji • Elastyczne formaty: Model obsługuje proporcje od 3:1 (ultra-szeroki) do 1:3 (ultra-wysoki) z rozdzielczością do 2K przez API • Cennik tokenowy: Koszt generowania obrazu 1024x1024 waha się od 0,006$ (niska jakość) do 0,211$ (wysoka jakość) • Zastosowania biznesowe: OpenAI wskazuje reklamy lokalizowane, infografiki, treści edukacyjne i narzędzia projektowe jako główne obszary wykorzystania
Według wpisu na blogu firmy, tryb myślenia ma prowadzić do większej różnorozności i dokładności generowanych obrazów. Rozszerzone funkcje z trybem myślenia są jednak dostępne wyłącznie dla użytkowników ChatGPT Plus, Pro i Business.
Z włączonym trybem myślenia ChatGPT Images 2.0 może tworzyć całe serie spójnych obrazów. OpenAI podaje jako przykłady zastosowań: generowanie całostronicowych mang z jednego zdjęcia i polecenia tekstowego, serie grafik do mediów społecznościowych oraz plany projektowe dla różnych pomieszczeń w domu.
Model został zaprojektowany do obsługi szczegółowych elementów, z którymi poprzednie modele konsystentnie miały problemy: małe teksty, ikonografia, elementy interfejsu użytkownika, gęste kompozycje i subtelne instrukcje stylistyczne.
Deweloperzy mogą zintegrować model ze swoimi produktami przez API pod nazwą gpt-image-2. OpenAI nalicza opłaty na podstawie tokenów: 8$ za milion tokenów wejściowych obrazów i 30$ za milion tokenów wyjściowych obrazów. Tokeny tekstowe kosztują 5$ (wejście) i 10$ (wyjście) za milion.
W praktyce koszty za obraz znacznie się różnią w zależności od jakości i rozdzielczości. Według przeglądu cenowego OpenAI, obraz 1024x1024 w niskiej jakości kosztuje zaledwie 0,006$, w średniej jakości 0,053$, a w wysokiej jakości 0,211$. Większe rozdzielczości jak 1024x1536 są faktycznie nieco tańsze i kosztują odpowiednio 0,005$, 0,041$ i 0,165$.
Przy większych rozdzielczościach GPT Image 2 jest tańszy od poprzedników: format 1024x1536 w wysokiej jakości kosztuje 0,165$, w porównaniu do 0,20$ dla GPT Image 1.5. Przy standardowej rozdzielczości 1024x1024 w wysokiej jakości nowy model jest jednak droższy — 0,211$ wobec 0,133$ dla GPT Image 1.5.
ChatGPT Images 2.0 stanowi znaczący krok naprzód w generowaniu obrazów AI, łącząc możliwość rozumowania z praktycznymi zastosowaniami biznesowymi i ulepszoną obsługą tekstu w różnych formatach.