Nowy model generuje wiele obrazów jednocześnie, obsługuje języki obce i znacznie poprawia jakość tekstów w generowanych grafikach.

Źródło zdjęcia: WIRED
OpenAI wprowadził we wtorek nowy model generowania obrazów o nazwie ChatGPT Images 2.0. Model może tworzyć więcej niż jeden obraz z pojedynczego zapytania oraz generować tekst w językach innych niż angielski, w tym w chińskim i hindi. Funkcja jest dostępna globalnie dla użytkowników ChatGPT i Codex, z bardziej zaawansowaną wersją dla płacących subskrybentów. Szczegóły nowego modelu opisuje portal Wired.
Premiera nowego modelu obrazowego od dużych firm AI często ożywia zainteresowanie i zwiększa użytkowanie, szczególnie gdy użytkownicy mediów społecznościowych adoptują memowalne trendy, przekształcając swoje zdjęcia. W ubiegłym roku uruchomienie modelu Nano Banana przez Google było znaczącym momentem dla firmy, zwłaszcza gdy użytkownicy zaczęli publikować hiperrealistyczne figurki siebie online.
• Rozszerzone możliwości generowania: Images 2.0 może tworzyć kilka obrazów jednocześnie i wykorzystuje możliwości "rozumowania" ChatGPT do przeszukiwania internetu w poszukiwaniu aktualnych informacji • Lepsze renderowanie tekstu: Nowy model znacznie poprawił jakość generowanego tekstu w obrazach, eliminując zniekształcone znaki i błędne litery • Wsparcie dla wielu języków: Model obsługuje generowanie tekstów w językach innych niż angielski, choć jakość może się różnić w zależności od języka • Elastyczne proporcje: Użytkownicy mogą dostosowywać proporcje obrazów od 3:1 szerokości do 1:3 wysokości • Aktualna baza wiedzy: Model ma bardziej aktualną datę odcięcia wiedzy - grudzień 2025
Images 2.0 wykorzystuje zdolności "rozumowania" ChatGPT, co pozwala mu przeszukiwać internet w poszukiwaniu najnowszych informacji i generować bardziej szczegółowe wyniki. Bot może wykonać dodatkowe kroki, aby z pojedynczego zapytania stworzyć bardziej wyczerpujące generacje.
Nowy model oferuje również bardziej szczegółowe wyniki. Autor testów wygenerował infografikę z prognozą pogody dla San Francisco na następny dzień wraz z wartymi polecenia aktywnościami. Obraz zawierał dokładne szczegóły pogodowe dla deszczowego dnia oraz precyzyjnie wyglądające rysunki Ferry Building, Castro Theater, domów Painted Ladies i Transamerica Pyramid.
Po kilku godzinach generowania obrazów nowym modelem, autor był generalnie pod wrażeniem możliwości renderowania tekstu, przynajmniej w języku angielskim. Nie tak dawno temu obrazy zawierające tekst z głównych modeli często zawierały liczne zniekształcone znaki lub słowa z błędnymi dodatkowymi literami.
W testach w różnych językach autor poprosił ChatGPT o wygenerowanie plakatu-kolażu tematycznego Timothée Chalameta, jakby został stworzony przez kogoś z jego chińskiej bazy fanów. Rezultat zawierał asortyment fotorealistycznych obrazów gwiazdy filmowej, niektóre pokazujące go w tradycyjnych strojach lub z narysowanymi kocimi uszami.
Gdy autor poprosił o tłumaczenie tekstu, ChatGPT było krytyczne wobec własnego wyniku: "Wiele z tego to fałszywy lub pół-bełkotliwy tekst AI przebierany za chińskie memowe pisanie plakatowe, więc nie wszystko daje się czytelnie przetłumaczyć" - brzmiała część odpowiedzi.
Podczas gdy nowy model ChatGPT Images sprawdził się dobrze w początkowych testach przy generowaniu tekstu w języku angielskim, autor nie jest pewien, czy użytkownicy na całym świecie będą mieli podobne rezultaty przy generowaniu w swoich własnych językach.