Naukowcy opisują system przetwarzający tysiące dokumentów na godzinę, odkrywając że OCR, nie LLM, jest głównym wąskim gardłem wydajności.

Źródło zdjęcia: arXiv.org
Naukowcy z różnych instytutów opublikowali badanie przedstawiające architekturę mikrousług do wdrażania systemów AI do analizy dokumentów w środowisku produkcyjnym. Praca, dostępna w serwisie arXiv, wypełnia lukę między badaniami akademickimi a praktycznym uruchamianiem modeli AI na dużą skalę.
Zespół opisuje swoją architekturę, która łączy klasyfikację dokumentów, rozpoznawanie tekstu (OCR) oraz ekstrakcję danych przez duże modele językowe. System został przetestowany w produkcji przy przetwarzaniu tysięcy wielostronicowych dokumentów na godzinę.
Autorzy identyfikują kluczową różnicę między badaniami akademickimi a rzeczywistym wdrożeniem systemów AI. Podczas gdy literatura naukowa koncentruje się na definicji nowych modeli, istnieje wyraźna luka w wiedzy o uruchamianiu tych rozwiązań na skalę produkcyjną.
Badanie wypełnia tę lukę poprzez szczegółowy opis doświadczeń z uruchamianiem pipeline'u przetwarzającego tysiące dokumentów na godzinę. Zespół wykorzystał profilowanie wsadowe do identyfikacji nieoczekiwanych wąskich gardeł w systemie.
System wykorzystuje architekturę mikrousług, która enkapsuluje pipeline'y składające się z wielu modeli. Obejmuje to klasyfikację hybrydową, optyczne rozpoznawanie znaków oraz ekstrakcję strukturalnych pól danych przez duże modele językowe.
Kluczowe decyzje projektowe obejmują rozdzielenie inferencji wymagającej GPU od orkiestracji opartej na CPU. Pozwala to na optymalne wykorzystanie zasobów obliczeniowych i lepszą skalowalność systemu.
Zespół zastosował również asynchroniczne przetwarzanie dla licznych operacji wejścia/wyjścia w pipeline'ie, co znacznie poprawiło responsywność systemu. Niezależna strategia skalowania horyzontalnego umożliwia elastyczne dostosowywanie pojemności do zmiennego obciążenia.
Profilowanie systemu ujawniło dwa zaskakujące odkrycia, które mają istotny wpływ na wdrożenia produkcyjne. Po pierwsze, OCR okazał się głównym wąskim gardłem całego systemu, dominując w czasie przetwarzania end-to-end, podczas gdy parsowanie przez modele językowe miało mniejszy wpływ na wydajność.
Po drugie, system osiągał nasycenie przy współbieżności określonej przez wspólną pojemność GPU do inferencji, a nie przez liczbę dostępnych workerów. To odkrycie ma kluczowe znaczenie dla planowania infrastruktury i optymalizacji kosztów.
Badanie dostarcza praktykownikom konkretnych wzorców architektonicznych do budowania systemów rozumienia dokumentów, które działają poza środowiskiem testowym, skutecznie operacjonalizując modele w produkcji.

Chris Lehane, były doradca Białego Domu, ma przekonać świat do technologii OpenAI i kształtować korzystne regulacje w obliczu rosnącego sceptycyzmu.

Brytyjskie firmy desperacko dodają etykietę AI do podstawowych narzędzi automatyzacji. Specjaliści PR skarżą się na presję klientów żądających prezentacji jako pionierzy AI.

YouTube dodaje funkcję AI remix w Shorts. Gemini Omni przekształca filmy w anime, pixel art i pozwala umieszczać siebie w cudzych nagraniach.