Nowy model Xiaomi z 1,02 biliona parametrów autonomicznie programuje przez godziny, zużywając o 40–60% mniej tokenów niż konkurencyjne systemy zachodnie.

Źródło zdjęcia: The Decoder

Aktualizacja Gemini 3.1 pozwala Google Home wykonywać wieloetapowe zadania w jednym poleceniu głosowym i lepiej rozumieć naturalne wypowiedzi.

Amazon dodał do SageMaker AI agenta, który automatyzuje fine-tuning modeli językowych na podstawie opisów w naturalnym języku.
Xiaomi zaprezentowało MiMo-V2.5-Pro, nowy model sztucznej inteligencji z otwartymi wagami, który ma konkurować z najlepszymi systemami zachodnimi w dziedzinie programowania autonomicznego. Model, wyposażony w 1,02 biliona parametrów, wykazuje się imponującą efektywnością w długotrwałych zadaniach kodowania, jak podaje The Decoder.
Według wewnętrznych testów Xiaomi, MiMo-V2.5-Pro napisał kompletny kompilator w zaledwie 4,3 godziny i osiąga wyniki porównywalne z Claude Opus 4.6 w benchmarkach programistycznych, przy jednoczesnym zużyciu o 40–60% mniej tokenów niż konkurencyjne modele zachodnie.
MiMo-V2.5-Pro wyróżnia się zdolnością do wykonywania złożonych, długotrwałych zadań programistycznych bez ludzkiej interwencji. Najspektakularniejszym przykładem jest stworzenie kompletnego kompilatora z kursu Uniwersytetu Pekińskiego — zadania, które zwykle zajmuje studentom informatyki kilka tygodni.
Model pracował nad projektem w czterech fazach przez 4,3 godziny, stopniowo poprawiając pokrycie testów z 59% przy pierwszej kompilacji do idealnych 100%. Xiaomi podkreśla, że najciekawsze jest podejście modelu: najpierw stworzył szkielet całego pipeline'u, następnie systematycznie pracował nad każdym etapem. Gdy podczas refaktoryzacji wprowadził regresję, samodzielnie zdiagnozował i naprawił problem.
W drugim demonstracji model stworzył desktopowy edytor wideo z około 8000 liniami kodu na podstawie kilku promptów, pracując autonomicznie przez 11,5 godziny i wykonując około 1870 wywołań narzędzi. Trzecia demonstracja pokazała projektowanie regulatora napięcia w symulatorze obwodów — model spełnił wszystkie sześć specyfikacji technicznych w ciągu godziny, przy czym cztery z nich przewyższyły pierwszą wersję o rząd wielkości.
Głównym argumentem sprzedażowym MiMo-V2.5-Pro jest stosunek wydajności do zużycia tokenów. Na własnym benchmarku ClawEval firmy Xiaomi model osiąga 64% skuteczności przy około 70 000 tokenów na zadanie — to o 40–60% mniej tokenów niż potrzebują Claude Opus 4.6, Gemini 3.1 Pro i GPT-5.4 do osiągnięcia podobnych wyników.
W benchmarkach programistycznych model zdobywa 78,9 punktów na SWE-bench Verified, 57,2 na SWE-Bench Pro i 68,4 na Terminal-Bench 2.0. Na wewnętrznym MiMo Coding Bench osiąga 73,7 punktów, plasując się blisko Claude Opus 4.6 (77,1) i znacznie przed Gemini 3.1 Pro (67,8). W zadaniach agentowych model uzyskuje 1581 punktów Elo na GDPVal-AA i 72,9 na tau3-bench.
Szczególnie imponujące są wyniki w pracy z długim kontekstem. Na benchmarku GraphWalks firmy OpenAI, gdzie model nawiguje po złożonych grafach węzłów, poprzednia wersja MiMo-V2-Pro spadała do zera przy milonie tokenów. MiMo-V2.5-Pro nadal osiąga 0,37 punktu w przeszukiwaniu wszerz i 0,62 w zapytaniach o węzły nadrzędne przy tej samej długości.
Oprócz flagowego modelu Pro, Xiaomi wprowadza trzy dodatkowe systemy. MiMo-V2.5 to mniejsza wersja z 310 miliardami parametrów (15 miliardów aktywnych), która obsługuje tekst, obrazy, wideo i dźwięk bezpośrednio oraz wspiera kontekst do miliona tokenów. Model trenowany na około 48 bilionach tokenów osiąga 87,7 punktów na benchmarku Video-MME, dorównując Gemini 3 Pro. Ta wersja jest dostępna z otwartymi wagami na Hugging Face.
MiMo-V2.5-TTS to rodzina trzech wariantów: jeden z predefiniowanymi głosami, drugi generujący nowe głosy z opisów tekstowych i trzeci klonujący głosy z krótkich próbek audio. Użytkownicy mogą kontrolować wymowę, dodając tagi kontrolne jak [crying] czy [whispers] bezpośrednio w tekście. Modele TTS są dostępne wyłącznie przez API platformy Xiaomi, obecnie bezpłatnie przez ograniczony czas.
MiMo-V2.5-Pro reprezentuje znaczący krok naprzód w dziedzinie autonomicznego programowania, łącząc imponującą wydajność z efektywnością tokenów. Model jest już dostępny z otwartymi wagami, co może przyspieszyć rozwój podobnych systemów w społeczności open source.