Google prezentuje Gemini 3.1 Flash TTS z precyzyjną kontrolą głosu przez tagi audio

NSA wykorzystuje najnowszy model AI Anthropic mimo klasyfikacji jako zagrożenie bezpieczeństwaColossal Biosciences twierdzi, że sklonował czerwone wilki. Naukowcy mają wątpliwościMacBook Air M4 tańszy o 500 zł - tylko dziś w Media ExpertCEO firm technologicznych tworzą swoje AI-awatary, by zarządzać z każdego miejscaOkulary Ray-Ban Meta z AI przyspieszają codzienne zadania o 37% w nowym badaniuKanadyjski rejestr AI ukrywa więcej niż ujawnia - analiza 409 systemów rządowychUber wyczerpał budżet na AI po wydaniu 3,4 mld dolarów – Claude Code przekroczył prognozy12-miesięczne okno na exit: jak startupy AI mogą uniknąć pułapki przegapienia szczytuSystem GIST przekształca skanery 3D w inteligentne mapy nawigacyjne z 80% skutecznościąVercel zhakowany przez narzędzie AI - grupa ShinyHunters sprzedaje dane

aifeed.

Powrót

Google prezentuje Gemini 3.1 Flash TTS z precyzyjną kontrolą głosu przez tagi audio | AiFeed

Google DeepMind zaprezentowało dziś Gemini 3.1 Flash TTS — nowy model zamiany tekstu na mowę, który wprowadza znaczące ulepszenia w zakresie kontroli, ekspresyjności i jakości generowanego głosu. Szczegóły tej premiery przedstawiono w oficjalnym wpisie na blogu DeepMind.

Model rozpoczyna dziś wdrażanie w trzech obszarach: dla deweloperów w wersji preview poprzez Gemini API i Google AI Studio, dla przedsiębiorstw w preview na Vertex AI, oraz dla użytkowników Workspace poprzez Google Vids.

Wyższa jakość i precyzyjna kontrola

Nowy Gemini 3.1 Flash TTS osiągnął imponujący wynik 1,211 punktów Elo w rankingu Artificial Analysis TTS, benchmarku opartym na tysiącach ślepych ocen użytkowników. Artificial Analysis umieściło model w swojej "najbardziej atrakcyjnej ćwiartce" ze względu na idealne połączenie wysokiej jakości generowania mowy z niskimi kosztami.

Model wyróżnia się natywnym wsparciem dla dialogów wielomówców, obsługą ponad 70 języków oraz szczegółową kontrolą kreatywną poprzez język naturalny.

Rewolucyjne tagi audio

Kluczową nowością w 3.1 Flash TTS są tagi audio — intuicyjny sposób kontrolowania stylu wokalnego, tempa i sposobu przekazu. Poprzez osadzanie komend w języku naturalnym bezpośrednio w tekście wejściowym, użytkownicy mogą sterować wynikiem AI z niespotykaną dotąd precyzją.

Google AI Studio oferuje deweloperom konfigurowalne kontrole, stawiając ich w roli "reżysera":

Kierunek sceniczny: Możliwość zdefiniowania środowiska i dostarczenia konkretnych instrukcji dialogowych. Ten kontekst budowania świata pomaga postaciom pozostać "w charakterze" i naturalnie reagować na siebie nawzajem przez wiele tur.

Specyfika na poziomie mówcy: Obsada postaci przy użyciu unikalnych profili audio, z możliwością określenia notatek reżysera do przełączania tempa, tonu i akcentu. Używając tagów inline, mówcy mogą odbiegać od tych ogólnych ustawień, zmieniając ekspresję w środku zdania.

Bezproblemowy eksport: Po udoskonaleniu performansu, te dokładne parametry można wyeksportować jako kod Gemini API, zapewniając spójne, rozpoznawalne głosy w różnych projektach i platformach.

Globalna skala i bezpieczeństwo

Gemini 3.1 Flash TTS dostarcza wysokiej jakości mowę z precyzyjną kontrolą w ponad 70 językach. Te kluczowe optymalizacje wprowadzają zaawansowaną kontrolę stylu, tempa i akcentu na głównych rynkach, pomagając deweloperom tworzyć zlokalizowane, ekspresyjne doświadczenia mowy dla użytkowników na skalę globalną.

Wszechiej audio generowane przez Gemini 3.1 Flash TTS jest opatrzone watermarkiem SynthID. Ten niezauważalny znak wodny jest wpleciony bezpośrednio w wyjście audio, umożliwiając niezawodne wykrywanie treści generowanych przez AI w celu przeciwdziałania dezinformacji.

Wczesni testerzy — zarówno deweloperzy, jak i przedsiębiorstwa — już dostrzegają wpływ 3.1 Flash TTS, podkreślając jego imponującą kontrolowalność i ekspresyjność. Jak relacjonują, tagi audio zapewniają nowy poziom precyzji kreatywnej, przekształcając prosty tekst w wysokiej jakości performans wokalny.

Model można już testować w Google AI Studio Playground, gdzie dostępne są wszystkie nowe funkcje kontroli wysokiej jakości generowania mowy.

Wyższa jakość i precyzyjna kontrola

Rewolucyjne tagi audio

Globalna skala i bezpieczeństwo

Źródła