8 maja 20264 min czytania

OpenAI prezentuje modele głosowe z rozumowaniem na poziomie GPT-5

GPT-Realtime-2 oferuje rozumowanie porównywalnych z GPT-5 w rozmowach na żywo. Nowe modele tłumaczą i transkrybują w czasie rzeczywistym.

Źródło zdjęcia: The Decoder

Poprzedni

ChatGPT ma obsesję na punkcie chińskiej frazy o 'łapaniu'. Użytkownicy tworzą memy

Następny

OpenAI uruchamia program Trusted Access for Cyber dla modeli GPT-5.5

Podobne Publikacje

Badania i Nauka

Nowy algorytm AI rewolucjonizuje wyznaczanie granic okręgów wyborczych

Chiński algorytm CM-Tabu rozwiązuje problem ciągłości geograficznej w redystrybucji okręgów, osiągając globalne optimum w testach na Filadelfii.

3 min11 maja

Biznes i Rynek

ByteDance planuje wydać ponad 30 miliardów dolarów na rozwój AI, stawia na chińskie chipy

Firma macierzysta TikToka zwiększa budżet na infrastrukturę AI o 25% do 30 mld USD, przechodzi na krajowe półprzewodniki z powodu ryzyka geopolitycznego.

3 min

Kluczowe wnioski

GPT-Realtime-2 oferuje rozumowanie na poziomie GPT-5 z oknem kontekstu zwiększonym z 32 000 do 128 000 tokenów.

Model posiada pięć poziomów intensywności rozumowania (minimalny, niski, średni, wysoki i bardzo wysoki), pozwalając programistom dostosować głębokość przetwarzania.

W testach Big Bench Audio GPT-Realtime-2 osiągnął 96,6% dokładności w ustawieniu „high”, w porównaniu do 81,4% poprzednika.

GPT-Realtime-Translate obsługuje ponad 70 języków wejściowych i 13 języków wyjściowych dla tłumaczeń na żywo.

Wszystkie trzy modele są już dostępne przez Realtime API z cenami opartymi na tokenach i minutach użytkowania.

Przełom w rozumowaniu głosowym

GPT-Realtime-2 wprowadza szereg innowacji technicznych mających na celu rozwiązanie problemów dotychczasowych asystentów głosowych. Model wykorzystuje „sztuczki zwlekające” jak frazy „pozwól, że sprawdzę” czy „jeden moment”, aby kupić sobie czas na myślenie. Krótkie zdania wprowadzające informują użytkownika o działaniu systemu, a w przypadku problemów model nie milknie, lecz komunikuje trudności słowami „mam z tym teraz problem”.

System lepiej radzi sobie ze specjalistyczną terminologią, nazwami własnymi i terminami medycznymi niż jego poprzednik. Ton głosu jest bardziej kontrolowalny — spokojny podczas rozwiązywania problemów, empatyczny wobec sfrustrowanych użytkowników i radosny po udanych akcjach. Model może równolegle wywoływać wiele narzędzi, co znacznie zwiększa jego praktyczność.

Tłumaczenia i transkrypcje w czasie rzeczywistym

GPT-Realtime-Translate to samodzielny model tłumaczeń na żywo, który zachowuje znaczenie przy jednoczesnym dotrzymywaniu kroku mówcy. Radzi sobie ze zmianami kontekstu, regionalnymi akcentami i specjalistycznym słownictwem. Zastosowania obejmują obsługę klienta, sprzedaż transgraniczną, edukację, wydarzenia i media.

GPT-Realtime-Whisper to model transkrypcji strumieniowej o niskim opóźnieniu, przeznaczony do tworzenia napisów na żywo dla spotkań, sal lekcyjnych, transmisji i wydarzeń. Zespoły mogą wykorzystywać go do generowania notatek i podsumowań podczas trwających rozmów, budowania agentów głosowych z ciągłym rozumieniem mowy oraz tworzenia szybszych procesów obsługi klienta, opieki zdrowotnej, sprzedaży i rekrutacji.

Cennik opiera się na tokenach i minutach użytkowania: GPT-Realtime-2 kosztuje 32 dolary za milion tokenów audio wejściowych i 64 dolary za tokeny wyjściowe, GPT-Realtime-Translate — 0,034 dolara za minutę, a GPT-Realtime-Whisper — 0,017 dolara za minutę. Wszystkie modele dostępne są przez Realtime API z możliwością testowania w Playground.

Te zaawansowane możliwości głosowe mają wkrótce trafić również do trybu audio ChatGPT, co może uczynić głos głównym interfejsem interakcji z AI.