Badacze przedstawili DeepSlide, system multi-agentowy który pomaga nie tylko tworzyć slajdy, ale i przygotowywać całe wystąpienia z uwzględnieniem tempa i narracji.

Źródło zdjęcia: arXiv.org
Badacze opublikowali nowe badanie na temat systemu DeepSlide — zaawansowanego narzędzia AI, które wspiera nie tylko tworzenie prezentacji, ale całościowo pomaga w przygotowaniu i przeprowadzeniu wystąpień. Praca została przedstawiona w artykule „DeepSlide: From Artifacts to Presentation Delivery” przez zespół Ming Yang, Zhiwei Zhang i współpracowników.
Większość obecnych generatorów slajdów opartych na AI koncentruje się na optymalizacji artefaktu — wizualnie wiarygodnej prezentacji — ale zaniedbuje proces jej wygłoszenia. Autorzy badania zauważyli, że tempo, narracja i przygotowanie do prezentacji są równie ważne jak sam wygląd slajdów. DeepSlide ma za zadanie wypełnić tę lukę, oferując kompleksowe wsparcie dla całego procesu prezentacyjnego.
System działa jako narzędzie „human-in-the-loop”, co oznacza, że człowiek pozostaje aktywnym uczestnikiem procesu, podczas gdy AI zapewnia inteligentne wsparcie na każdym etapie przygotowania wystąpienia.
DeepSlide składa się z czterech kluczowych elementów technologicznych. Pierwszy to kontrolowalny planer łańcucha logicznego z budżetami czasowymi dla każdego węzła, który pomaga w strukturyzacji prezentacji zgodnie z dostępnym czasem. Drugi komponent to lekki retriever drzewa treści służący do uzasadniania informacji w oparciu o dostępne źródła.
Trzeci element to renderowanie sekwencyjne w stylu Markowa z dziedziczeniem stylu, które zapewnia spójność wizualną i narracyjną między slajdami. Ostatni komponent to sandboxed execution z minimalną naprawą, który gwarantuje, że wygenerowane slajdy będą możliwe do wyświetlenia bez błędów technicznych.
Zespół badawczy wprowadził innowacyjny benchmark z podwójną tablicą wyników, który po raz pierwszy czysto oddziela jakość statycznych artefaktów od doskonałości dynamicznej prezentacji. Taki podział pozwala na bardziej precyzyjną ocenę systemów generujących prezentacje.
W testach przeprowadzonych na 20 różnych domenach z uwzględnieniem zróżnicowanych profili odbiorców, DeepSlide wykazał imponujące rezultaty. System dorównał mocnym modelom bazowym w zakresie jakości artefaktów, ale osiągnął znacznie większe korzyści w metrykach związanych z prezentacją. Szczególnie wyróżniał się w poprawie płynności narracji, precyzji tempa oraz synchronizacji między slajdami a skryptem, oferując jednocześnie jaśniejsze wskazówki dotyczące kierowania uwagą odbiorców.
DeepSlide reprezentuje zaawansowane podejście do automatyzacji prezentacji, które wykracza poza tradycyjne generowanie slajdów i koncentruje się na całościowym wsparciu procesu komunikacji naukowej i biznesowej.

YouTube dodaje funkcję AI remix w Shorts. Gemini Omni przekształca filmy w anime, pixel art i pozwala umieszczać siebie w cudzych nagraniach.

AI w Glendale Community College źle wymówił i pominął nazwiska studentów podczas ceremonii. Uczelnia zorganizowała powtórną uroczystość z ludzkim lektorem.

Samsung uniknął strajku 48 tys. pracowników, oferując rekordowe premie sięgające 416 tys. dolarów dla specjalistów od pamięci flash.