Agent automatycznie zbudował interaktywną galerię 3D zabytków Paryża, łącząc generator obrazów z narzędziem rekonstrukcji 3D bez ręcznej integracji.

Źródło zdjęcia: huggingface.co
Agent wykorzystał łańcuch dwóch przestrzeni Hugging Face, aby automatycznie stworzyć galerię 3D z zabytkami Paryża. Deweloper Mishig Davaadorj opisał w swoim artykule, jak agent samodzielnie wygenerował obrazy i modele 3D, łącząc różne narzędzia AI bez żadnej ręcznej integracji.
Proces był w pełni zautomatyzowany — agent najpierw wygenerował obrazy zabytków na ciemnym tle, następnie przekształcił je w modele 3D Gaussian Splats, a na koniec stworzył interaktywną przeglądarkę internetową. Cały projekt pokazuje, jak agenty AI mogą łączyć różne specjalistyczne narzędzia w złożone pipeline'y multimedialnych aplikacji.
Mitchell Hashimoto opisał niedawno zjawisko „ekonomii bloków konstrukcyjnych” — efektywne oprogramowanie powstaje już nie jako dopracowany monolit, lecz przez składanie małych, dobrze udokumentowanych komponentów. Jego główna obserwacja: AI radzi sobie średnio z budowaniem wszystkiego od zera, ale doskonale łączy gotowe elementy.
Ta teza dotyczyła dotąd głównie bibliotek kodu, ale te same siły wpływają na multimedialną AI. Naтруdność w używaniu najnowszych modeli obrazów, wideo, TTS czy rekonstrukcji 3D nigdy nie leżała w samym modelu — problem stanowiła integracja: SDK, wagi, GPU, formaty wejściowe, odpytywanie. Gdyby każdy model był udokumentowanym, wywoływalnym blokiem, agent mógłby je łączyć tak samo, jak składa pakiety npm.
To właśnie stały się przestrzenie Hugging Face.
Hub hostuje tysiące najnowocześniejszych modeli (znaczna część z otwartymi wagami), z których większość jest wdrożona jako interaktywne przestrzenie. Każda przestrzeń Gradio udostępnia również plik tekstowy agents.md, który mówi agentowi dokładnie, jak ją wywołać.
Wywołanie curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md zwraca wszystko, co potrzebne: URL schematu, szablony wywołań i odpytywania, sposób przesyłania plików oraz wskazówki autoryzacji. Brak biblioteki klienta, brak zakodowanej na stałe integracji — agent czyta to i może obsługiwać przestrzeń od początku do końca.
Prawdziwym przełomem jest łańcuchowanie: wyjście jednej przestrzeni staje się wejściem dla następnej. Prompt → obraz → 3D. To cały pipeline stojący za galerią.
Agent połączył dwie przestrzenie. Pierwsza — generator obrazów — przekształciła każdy zabytek w czysty obraz „próbki” na ciemnym tle. Druga — VAST-AI/TripoSplat — zrekonstruowała z każdego pojedynczego obrazu model 3D Gaussian Splat (.ply).
Agent wykonał również pracę „łączącą”. Zauważył, że wyjścia TripoSplat mają odwróconą orientację Y i poprawił je, automatycznie wykadrował każdy zabytek, skompresował pliki .ply do formatu .ksplat (3× mniejsze, szybsze ładowanie), zbudował przeglądarkę Three.js z interfejsem przewijania i przeciągania, a następnie wdrożył całość jako statyczną przestrzeń.
Kilka z tych kroków było reakcją agenta na rzeczywistość. Szeroka szklana piramida źle się splata. Cienki obelisk jest nudny. Rekonstrukcja z jednego widoku domyśla tył obiektu. To dokładnie pętla „outsourcowanego R&D i szybkich iteracji”, którą przewiduje ekonomia bloków konstrukcyjnych, z tą różnicą, że R&D odbywało się poprzez rozmowę.
Deweloper podkreśla znaczenie tego podejścia: modele stają się komponowalne, agenty preferują to, co jest udokumentowane i dostępne, a bariera integracyjna w dużej mierze znika. „Przekształcenie promptu w obracający się monument 3D” było wcześniej projektem — tutaj stało się krokiem w pipeline'ie.

NSA wykorzystuje model AI Mythos do ofensywnych operacji cybernetycznych. Anthropic umieściło swoich inżynierów w agencji mimo sporu z Pentagonem.

Jensen Huang osobiście zaprezentował superchip RTX Spark w koreańskich PC bangach, współpracując z deweloperami KRAFTON i NC oraz mistrzami esportu.

Nowy model Google tłumaczy mowę w czasie rzeczywistym dla ponad 70 języków, zachowując ton i tempo głosu. Dostępny już w Google Meet i Translate.