GPT-Realtime-2 oferuje rozumowanie porównywalnych z GPT-5 w rozmowach na żywo. Nowe modele tłumaczą i transkrybują w czasie rzeczywistym.

Źródło zdjęcia: The Decoder

Chiński algorytm CM-Tabu rozwiązuje problem ciągłości geograficznej w redystrybucji okręgów, osiągając globalne optimum w testach na Filadelfii.

Firma macierzysta TikToka zwiększa budżet na infrastrukturę AI o 25% do 30 mld USD, przechodzi na krajowe półprzewodniki z powodu ryzyka geopolitycznego.
OpenAI przedstawiło trzy nowe modele głosowe zdolne do rozumowania, tłumaczenia i transkrypcji w czasie rzeczywistym. Najważniejszy z nich, GPT-Realtime-2, oferuje możliwości rozumowania porównywalne z GPT-5, co stanowi znaczący postęp w stosunku do dotychczasowych asystentów głosowych, które były znacznie słabsze od swoich tekstowych odpowiedników. Szczegóły nowych rozwiązań opisuje The Decoder.
Według OpenAI nowoczesny agent głosowy musi rozumieć prawdziwe intencje użytkownika, śledzić kontekst, adaptować się do zmian, korzystać z narzędzi i odpowiednio reagować — wszystko jednocześnie. Firma zidentyfikowała trzy główne wzorce interakcji: Voice-to-Action (użytkownik opisuje potrzeby, system rozumuje i wykonuje zadania), Systems-to-Voice (oprogramowanie przekształca kontekst w mówione wskazówki) oraz Voice-to-Voice (AI pomaga w rozmowach przekraczających bariery językowe).
GPT-Realtime-2 wprowadza szereg innowacji technicznych mających na celu rozwiązanie problemów dotychczasowych asystentów głosowych. Model wykorzystuje „sztuczki zwlekające” jak frazy „pozwól, że sprawdzę” czy „jeden moment”, aby kupić sobie czas na myślenie. Krótkie zdania wprowadzające informują użytkownika o działaniu systemu, a w przypadku problemów model nie milknie, lecz komunikuje trudności słowami „mam z tym teraz problem”.
System lepiej radzi sobie ze specjalistyczną terminologią, nazwami własnymi i terminami medycznymi niż jego poprzednik. Ton głosu jest bardziej kontrolowalny — spokojny podczas rozwiązywania problemów, empatyczny wobec sfrustrowanych użytkowników i radosny po udanych akcjach. Model może równolegle wywoływać wiele narzędzi, co znacznie zwiększa jego praktyczność.
GPT-Realtime-Translate to samodzielny model tłumaczeń na żywo, który zachowuje znaczenie przy jednoczesnym dotrzymywaniu kroku mówcy. Radzi sobie ze zmianami kontekstu, regionalnymi akcentami i specjalistycznym słownictwem. Zastosowania obejmują obsługę klienta, sprzedaż transgraniczną, edukację, wydarzenia i media.
GPT-Realtime-Whisper to model transkrypcji strumieniowej o niskim opóźnieniu, przeznaczony do tworzenia napisów na żywo dla spotkań, sal lekcyjnych, transmisji i wydarzeń. Zespoły mogą wykorzystywać go do generowania notatek i podsumowań podczas trwających rozmów, budowania agentów głosowych z ciągłym rozumieniem mowy oraz tworzenia szybszych procesów obsługi klienta, opieki zdrowotnej, sprzedaży i rekrutacji.
Cennik opiera się na tokenach i minutach użytkowania: GPT-Realtime-2 kosztuje 32 dolary za milion tokenów audio wejściowych i 64 dolary za tokeny wyjściowe, GPT-Realtime-Translate — 0,034 dolara za minutę, a GPT-Realtime-Whisper — 0,017 dolara za minutę. Wszystkie modele dostępne są przez Realtime API z możliwością testowania w Playground.
Te zaawansowane możliwości głosowe mają wkrótce trafić również do trybu audio ChatGPT, co może uczynić głos głównym interfejsem interakcji z AI.