9 czerwca 20264 min czytania

Agent stworzył galerię 3D zabytków Paryża, łącząc dwie przestrzenie Hugging Face

Agent automatycznie zbudował interaktywną galerię 3D zabytków Paryża, łącząc generator obrazów z narzędziem rekonstrukcji 3D bez ręcznej integracji.

Źródło zdjęcia: huggingface.co

Agent wykorzystał łańcuch dwóch przestrzeni Hugging Face, aby automatycznie stworzyć galerię 3D z zabytkami Paryża. Deweloper Mishig Davaadorj opisał w swoim artykule, jak agent samodzielnie wygenerował obrazy i modele 3D, łącząc różne narzędzia AI bez żadnej ręcznej integracji.

Proces był w pełni zautomatyzowany — agent najpierw wygenerował obrazy zabytków na ciemnym tle, następnie przekształcił je w modele 3D Gaussian Splats, a na koniec stworzył interaktywną przeglądarkę internetową. Cały projekt pokazuje, jak agenty AI mogą łączyć różne specjalistyczne narzędzia w złożone pipeline'y multimedialnych aplikacji.

Kluczowe wnioski

Agent automatycznie stworzył galerię 3D zabytków Paryża, łącząc dwie przestrzenie Hugging Face: generator obrazów i narzędzie rekonstrukcji 3D TripoSplat.
Każda przestrzeń Gradio na Hugging Face udostępnia plik agents.md z dokumentacją API, umożliwiając agentom bezpośrednie wywoływanie narzędzi bez dodatkowego kodu integracyjnego.
Pipeline składał się z trzech kroków: prompt → obraz → model 3D, gdzie wyjście jednego narzędzia stawało się wejściem dla następnego.
Agent samodzielnie obsłużył technicznie skomplikowane zadania, jak odwrócenie orientacji modeli Y-down, kompresję plików .ply do formatu .ksplat i budowę przeglądarki Three.js.
Model ten pokazuje przyszłość rozwoju oprogramowania multimedialnego — zamiast monolitycznych aplikacji, agenty będą komponować małe, dobrze udokumentowane bloki funkcjonalne.

Ekonomia bloków konstrukcyjnych w multimediach

Mitchell Hashimoto opisał niedawno zjawisko „ekonomii bloków konstrukcyjnych” — efektywne oprogramowanie powstaje już nie jako dopracowany monolit, lecz przez składanie małych, dobrze udokumentowanych komponentów. Jego główna obserwacja: AI radzi sobie średnio z budowaniem wszystkiego od zera, ale doskonale łączy gotowe elementy.

Ta teza dotyczyła dotąd głównie bibliotek kodu, ale te same siły wpływają na multimedialną AI. Naтруdność w używaniu najnowszych modeli obrazów, wideo, TTS czy rekonstrukcji 3D nigdy nie leżała w samym modelu — problem stanowiła integracja: SDK, wagi, GPU, formaty wejściowe, odpytywanie. Gdyby każdy model był udokumentowanym, wywoływalnym blokiem, agent mógłby je łączyć tak samo, jak składa pakiety npm.

To właśnie stały się przestrzenie Hugging Face.

Przestrzenie jako bloki konstrukcyjne

Hub hostuje tysiące najnowocześniejszych modeli (znaczna część z otwartymi wagami), z których większość jest wdrożona jako interaktywne przestrzenie. Każda przestrzeń Gradio udostępnia również plik tekstowy agents.md, który mówi agentowi dokładnie, jak ją wywołać.

Wywołanie curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md zwraca wszystko, co potrzebne: URL schematu, szablony wywołań i odpytywania, sposób przesyłania plików oraz wskazówki autoryzacji. Brak biblioteki klienta, brak zakodowanej na stałe integracji — agent czyta to i może obsługiwać przestrzeń od początku do końca.

Prawdziwym przełomem jest łańcuchowanie: wyjście jednej przestrzeni staje się wejściem dla następnej. Prompt → obraz → 3D. To cały pipeline stojący za galerią.

Praktyczny przykład: od zabytków Paryża do modeli 3D

Agent połączył dwie przestrzenie. Pierwsza — generator obrazów — przekształciła każdy zabytek w czysty obraz „próbki” na ciemnym tle. Druga — VAST-AI/TripoSplat — zrekonstruowała z każdego pojedynczego obrazu model 3D Gaussian Splat (.ply).

Agent wykonał również pracę „łączącą”. Zauważył, że wyjścia TripoSplat mają odwróconą orientację Y i poprawił je, automatycznie wykadrował każdy zabytek, skompresował pliki .ply do formatu .ksplat (3× mniejsze, szybsze ładowanie), zbudował przeglądarkę Three.js z interfejsem przewijania i przeciągania, a następnie wdrożył całość jako statyczną przestrzeń.

Kilka z tych kroków było reakcją agenta na rzeczywistość. Szeroka szklana piramida źle się splata. Cienki obelisk jest nudny. Rekonstrukcja z jednego widoku domyśla tył obiektu. To dokładnie pętla „outsourcowanego R&D i szybkich iteracji”, którą przewiduje ekonomia bloków konstrukcyjnych, z tą różnicą, że R&D odbywało się poprzez rozmowę.

Deweloper podkreśla znaczenie tego podejścia: modele stają się komponowalne, agenty preferują to, co jest udokumentowane i dostępne, a bariera integracyjna w dużej mierze znika. „Przekształcenie promptu w obracający się monument 3D” było wcześniej projektem — tutaj stało się krokiem w pipeline'ie.

#agenty AI #rekonstrukcja 3D #Hugging Face #pipeline multimedialny

Udostępnij

Źródła

Hugging Face Blog

Poprzedni

Apple wprowadza AI do Safari — użytkownicy będą tworzyć rozszerzenia przez opis funkcji

Następny

NotebookLM Google otrzymuje własne maszyny wirtualne i wykonywanie kodu

Podobne Publikacje

Badania i Nauka

Zaawansowane materiały definiują granice rozwoju sztucznej inteligencji

Innowacje w AI zależą już nie tylko od chipów i algorytmów, ale od zaawansowanych materiałów, które definiują możliwości kolejnych generacji technologii.

4 min21 lipca

Modele AI

Anthropic wprowadza model Opus 5 z mniej restrykcyjnymi zabezpieczeniami

Nowy model Opus 5 od Anthropic przewyższa większy Fable 5 w testach, oferując mniej ograniczeń i lepszą dostępność dla użytkowników.

3 min24 lipca

Etyka i Bezpieczeństwo

Meta stworzyła własny system wykrywania AI zamiast użyć rozwiązania Google'a

Content Seal ma ograniczenia w porównaniu do SynthID — działa tylko przez narzędzie webowe i nie obsługuje starszych modeli AI Mety.

4 min22 lipca

Kluczowe wnioski

Agent automatycznie stworzył galerię 3D zabytków Paryża, łącząc dwie przestrzenie Hugging Face: generator obrazów i narzędzie rekonstrukcji 3D TripoSplat.

Każda przestrzeń Gradio na Hugging Face udostępnia plik agents.md z dokumentacją API, umożliwiając agentom bezpośrednie wywoływanie narzędzi bez dodatkowego kodu integracyjnego.

Pipeline składał się z trzech kroków: prompt → obraz → model 3D, gdzie wyjście jednego narzędzia stawało się wejściem dla następnego.

Agent samodzielnie obsłużył technicznie skomplikowane zadania, jak odwrócenie orientacji modeli Y-down, kompresję plików .ply do formatu .ksplat i budowę przeglądarki Three.js.

Model ten pokazuje przyszłość rozwoju oprogramowania multimedialnego — zamiast monolitycznych aplikacji, agenty będą komponować małe, dobrze udokumentowane bloki funkcjonalne.

Ekonomia bloków konstrukcyjnych w multimediach

To właśnie stały się przestrzenie Hugging Face.

Przestrzenie jako bloki konstrukcyjne

Prawdziwym przełomem jest łańcuchowanie: wyjście jednej przestrzeni staje się wejściem dla następnej. Prompt → obraz → 3D. To cały pipeline stojący za galerią.

Praktyczny przykład: od zabytków Paryża do modeli 3D