Naukowcy stworzyli PhyDrawGen — AI generujące dokładne diagramy fizyczne z opisu tekstowego, przewyższające GPT-5 i Gemini dzięki neuro-symbolicznemu podejściu.

Źródło zdjęcia: arXiv.org
Naukowcy z Bangladeszu opracowali PhyDrawGen — przełomowy system generowania diagramów fizycznych z opisu tekstowego, który skutecznie rozwiązuje problem halucynacji i naruszania praw fizyki przez obecne modele AI. Badania opublikowane w arXiv pokazują znaczącą przewagę nad modelami GPT-5-image, Gemini 2.5 Flash i Gemini 3 Pro.
PhyDrawGen wprowadza nowatorskie podejście do długotrwałego problemu generowania precyzyjnych diagramów fizycznych. Podczas gdy obecne modele generatywne tworzą wizualnie przekonujące rezultaty, systematycznie „halucynują” wektory sił, ignorują prawa zachowania i naruszają ograniczenia geometryczne.
Autorzy badania — Nafiul Haque, Syed Nazmus Sakib i Shifat E Arman — zaprojektowali system, który dzieli proces na trzy odrębne etapy. Pierwszy wykorzystuje duży model językowy do wyodrębnienia typowanego grafu sceny z tekstu problemu. Następnie deterministyczny solver konwertuje ten graf do Planar Straight-Line Graph (PSLG), kodując równowagę sił, ścieżki optyczne i topologie pól jako dokładne prymitywy geometryczne.
Finalny etap wykorzystuje dostrojony model Qwen-VL, który implementuje wizualnie ugruntowaną pętlę propose-verify do iteracyjnego korygowania wszelkich naruszeń ograniczeń. To podejście pozwala systemowi zachować wysoką dokładność fizyczną nawet w przypadku nietypowych obiektów i złożonych scenariuszy.
Badacze przeprowadzili kompleksową ewaluację na benchmark'u zawierającym 1449 problemów obejmujących mechanikę, optykę i elektromagnetyzm. Wyniki pokazały znaczącą przewagę PhyDrawGen nad najnowszymi modelami komercyjnymi, w tym GPT-5-image, Gemini 2.5 Flash i Gemini 3 Pro.
Praca została złożona do przeglądu na konferencję EMNLP 2026 i reprezentuje istotny postęp w kierunku generowania diagramów naukowych zgodnych z prawami fizyki, co może mieć szerokie zastosowanie w edukacji i badaniach naukowych.

Nowa metoda PACT redukuje zużycie tokenów w systemach wieloagentowych o połowę przy zachowaniu wydajności, obniżając koszty działania systemów AI.

Naukowcy przeanalizowali sposób, w jaki ukryte boty AI przez miesiące manipulowały użytkownikami podczas politycznych debat na Reddit.

OpenAI uruchomiło Lockdown Mode dla ChatGPT — nową funkcję zabezpieczającą wrażliwe dane przed atakami prompt injection w firmach i organizacjach.