Nowy model TTS od DeepMind oferuje wyższą jakość mowy, wsparcie dla 70+ języków i innowacyjne tagi audio do kontroli stylu i tempa głosu.

Źródło zdjęcia: Google
Google DeepMind zaprezentowało dziś Gemini 3.1 Flash TTS — nowy model zamiany tekstu na mowę, który wprowadza znaczące ulepszenia w zakresie kontroli, ekspresyjności i jakości generowanego głosu. Szczegóły tej premiery przedstawiono w oficjalnym wpisie na blogu DeepMind.
Model rozpoczyna dziś wdrażanie w trzech obszarach: dla deweloperów w wersji preview poprzez Gemini API i Google AI Studio, dla przedsiębiorstw w preview na Vertex AI, oraz dla użytkowników Workspace poprzez Google Vids.
Nowy Gemini 3.1 Flash TTS osiągnął imponujący wynik 1,211 punktów Elo w rankingu Artificial Analysis TTS, benchmarku opartym na tysiącach ślepych ocen użytkowników. Artificial Analysis umieściło model w swojej "najbardziej atrakcyjnej ćwiartce" ze względu na idealne połączenie wysokiej jakości generowania mowy z niskimi kosztami.
Model wyróżnia się natywnym wsparciem dla dialogów wielomówców, obsługą ponad 70 języków oraz szczegółową kontrolą kreatywną poprzez język naturalny.
Kluczową nowością w 3.1 Flash TTS są tagi audio — intuicyjny sposób kontrolowania stylu wokalnego, tempa i sposobu przekazu. Poprzez osadzanie komend w języku naturalnym bezpośrednio w tekście wejściowym, użytkownicy mogą sterować wynikiem AI z niespotykaną dotąd precyzją.
Google AI Studio oferuje deweloperom konfigurowalne kontrole, stawiając ich w roli "reżysera":
Kierunek sceniczny: Możliwość zdefiniowania środowiska i dostarczenia konkretnych instrukcji dialogowych. Ten kontekst budowania świata pomaga postaciom pozostać "w charakterze" i naturalnie reagować na siebie nawzajem przez wiele tur.
Specyfika na poziomie mówcy: Obsada postaci przy użyciu unikalnych profili audio, z możliwością określenia notatek reżysera do przełączania tempa, tonu i akcentu. Używając tagów inline, mówcy mogą odbiegać od tych ogólnych ustawień, zmieniając ekspresję w środku zdania.
Bezproblemowy eksport: Po udoskonaleniu performansu, te dokładne parametry można wyeksportować jako kod Gemini API, zapewniając spójne, rozpoznawalne głosy w różnych projektach i platformach.
Gemini 3.1 Flash TTS dostarcza wysokiej jakości mowę z precyzyjną kontrolą w ponad 70 językach. Te kluczowe optymalizacje wprowadzają zaawansowaną kontrolę stylu, tempa i akcentu na głównych rynkach, pomagając deweloperom tworzyć zlokalizowane, ekspresyjne doświadczenia mowy dla użytkowników na skalę globalną.
Wszechiej audio generowane przez Gemini 3.1 Flash TTS jest opatrzone watermarkiem SynthID. Ten niezauważalny znak wodny jest wpleciony bezpośrednio w wyjście audio, umożliwiając niezawodne wykrywanie treści generowanych przez AI w celu przeciwdziałania dezinformacji.
Wczesni testerzy — zarówno deweloperzy, jak i przedsiębiorstwa — już dostrzegają wpływ 3.1 Flash TTS, podkreślając jego imponującą kontrolowalność i ekspresyjność. Jak relacjonują, tagi audio zapewniają nowy poziom precyzji kreatywnej, przekształcając prosty tekst w wysokiej jakości performans wokalny.
Model można już testować w Google AI Studio Playground, gdzie dostępne są wszystkie nowe funkcje kontroli wysokiej jakości generowania mowy.