3 maja 20264 min czytania

Xiaomi MiMo-V2.5-Pro pisze kompilator w 4,3 godziny i konkuruje z Claude Opus

Nowy model Xiaomi z 1,02 biliona parametrów autonomicznie programuje przez godziny, zużywając o 40–60% mniej tokenów niż konkurencyjne systemy zachodnie.

Źródło zdjęcia: The Decoder

Poprzedni

Chińskie modele AI tracą dystans do USA według raportu amerykańskiej agencji

Następny

Google przedstawia aktualizacje AI z kwietnia 2026: era agentyczna, Gemma 4 i bezpłatne narzędzia

Podobne Publikacje

Narzędzia i Aplikacje

Google Home z Gemini 3.1 obsługuje skomplikowane polecenia głosowe

Aktualizacja Gemini 3.1 pozwala Google Home wykonywać wieloetapowe zadania w jednym poleceniu głosowym i lepiej rozumieć naturalne wypowiedzi.

3 min6 maja

Narzędzia i Aplikacje

Amazon wprowadza agenta AI do SageMaker z wsparciem dla Llama, Qwen i Deepseek

Amazon dodał do SageMaker AI agenta, który automatyzuje fine-tuning modeli językowych na podstawie opisów w naturalnym języku.

Kluczowe wnioski

MiMo-V2.5-Pro to model typu mixture-of-experts z 1,02 biliona parametrów, z których 42 miliardy jest aktywnych przy każdym zapytaniu.

Model może przetwarzać do miliona tokenów jednocześnie i został zaprojektowany specjalnie do zadań trwających godzinami.

W testach napisał kompletny kompilator w 4,3 godziny (672 wywołania narzędzi) oraz edytor wideo z 8000 liniami kodu w 11,5 godziny.

Na benchmarku ClawEval osiąga 64% skuteczności przy zużyciu około 70 000 tokenów na zadanie, co stanowi o 40–60% mniej niż Claude Opus 4.6, Gemini 3.1 Pro czy GPT-5.4.

Xiaomi udostępnia również mniejsze wersje modelu oraz systemy TTS z możliwością klonowania głosu.

Autonomiczne programowanie na nowym poziomie

MiMo-V2.5-Pro wyróżnia się zdolnością do wykonywania złożonych, długotrwałych zadań programistycznych bez ludzkiej interwencji. Najspektakularniejszym przykładem jest stworzenie kompletnego kompilatora z kursu Uniwersytetu Pekińskiego — zadania, które zwykle zajmuje studentom informatyki kilka tygodni.

Model pracował nad projektem w czterech fazach przez 4,3 godziny, stopniowo poprawiając pokrycie testów z 59% przy pierwszej kompilacji do idealnych 100%. Xiaomi podkreśla, że najciekawsze jest podejście modelu: najpierw stworzył szkielet całego pipeline'u, następnie systematycznie pracował nad każdym etapem. Gdy podczas refaktoryzacji wprowadził regresję, samodzielnie zdiagnozował i naprawił problem.

W drugim demonstracji model stworzył desktopowy edytor wideo z około 8000 liniami kodu na podstawie kilku promptów, pracując autonomicznie przez 11,5 godziny i wykonując około 1870 wywołań narzędzi. Trzecia demonstracja pokazała projektowanie regulatora napięcia w symulatorze obwodów — model spełnił wszystkie sześć specyfikacji technicznych w ciągu godziny, przy czym cztery z nich przewyższyły pierwszą wersję o rząd wielkości.

Efektywność tokenów i wyniki benchmarków

Głównym argumentem sprzedażowym MiMo-V2.5-Pro jest stosunek wydajności do zużycia tokenów. Na własnym benchmarku ClawEval firmy Xiaomi model osiąga 64% skuteczności przy około 70 000 tokenów na zadanie — to o 40–60% mniej tokenów niż potrzebują Claude Opus 4.6, Gemini 3.1 Pro i GPT-5.4 do osiągnięcia podobnych wyników.

W benchmarkach programistycznych model zdobywa 78,9 punktów na SWE-bench Verified, 57,2 na SWE-Bench Pro i 68,4 na Terminal-Bench 2.0. Na wewnętrznym MiMo Coding Bench osiąga 73,7 punktów, plasując się blisko Claude Opus 4.6 (77,1) i znacznie przed Gemini 3.1 Pro (67,8). W zadaniach agentowych model uzyskuje 1581 punktów Elo na GDPVal-AA i 72,9 na tau3-bench.

Szczególnie imponujące są wyniki w pracy z długim kontekstem. Na benchmarku GraphWalks firmy OpenAI, gdzie model nawiguje po złożonych grafach węzłów, poprzednia wersja MiMo-V2-Pro spadała do zera przy milonie tokenów. MiMo-V2.5-Pro nadal osiąga 0,37 punktu w przeszukiwaniu wszerz i 0,62 w zapytaniach o węzły nadrzędne przy tej samej długości.

Rodzina modeli i dostępność

Oprócz flagowego modelu Pro, Xiaomi wprowadza trzy dodatkowe systemy. MiMo-V2.5 to mniejsza wersja z 310 miliardami parametrów (15 miliardów aktywnych), która obsługuje tekst, obrazy, wideo i dźwięk bezpośrednio oraz wspiera kontekst do miliona tokenów. Model trenowany na około 48 bilionach tokenów osiąga 87,7 punktów na benchmarku Video-MME, dorównując Gemini 3 Pro. Ta wersja jest dostępna z otwartymi wagami na Hugging Face.

MiMo-V2.5-TTS to rodzina trzech wariantów: jeden z predefiniowanymi głosami, drugi generujący nowe głosy z opisów tekstowych i trzeci klonujący głosy z krótkich próbek audio. Użytkownicy mogą kontrolować wymowę, dodając tagi kontrolne jak [crying] czy [whispers] bezpośrednio w tekście. Modele TTS są dostępne wyłącznie przez API platformy Xiaomi, obecnie bezpłatnie przez ograniczony czas.

MiMo-V2.5-Pro reprezentuje znaczący krok naprzód w dziedzinie autonomicznego programowania, łącząc imponującą wydajność z efektywnością tokenów. Model jest już dostępny z otwartymi wagami, co może przyspieszyć rozwój podobnych systemów w społeczności open source.