Naukowcy opracowali CLIPR, system który pozwala AI lepiej rozumieć ukryte preferencje użytkowników i przenosić je między zadaniami z minimalnych interakcji.

Źródło zdjęcia: arXiv.org

Platforma naukowa ArXiv karze badaczy rocznym banem za pozostawienie w pracach niepodważalnych dowodów nieweryfikowanej treści generowanej przez AI.
Brian Meeker krytykuje tokenmaxxing i przedstawia praktyczne zasady zarządzania narzędziami AI w zespołach deweloperskich bez przymusu i manipulacji.
Naukowcy z University opracowali nowy framework CLIPR, który pozwala dużym modelom językowym (LLM) lepiej rozumieć niewyraźne preferencje użytkowników i podejmować bardziej zgodne z nimi decyzje. Badanie opublikowane w arXiv przedstawia rozwiązanie jednego z kluczowych problemów sztucznej inteligencji — jak sprawić, by AI działała zgodnie z ludzkim myśleniem.
Duże modele językowe coraz częściej służą jako moduły rozumowania w różnych aplikacjach. Choć sprawdzają się w określonych zadaniach, często mają trudności z tworzeniem rozwiązań zgodnych z ludzkimi oczekiwaniami. Podejmowanie decyzji zgodnych z człowiekiem wymaga uwzględnienia nie tylko jawnie sformułowanych celów, ale także ukrytych preferencji użytkowników, które określają sposób rozwiązywania niejednoznacznych sytuacji.
Dotychczasowe podejścia do włączania takich preferencji albo wymagają obszernych i powtarzających się interakcji z użytkownikami, albo nie potrafią uogólniać ukrytych preferencji między różnymi zadaniami i kontekstami. To ogranicza ich praktyczne zastosowanie w rzeczywistych scenariuszach.
Autorzy badania — Alina Hyk i Sandhya Saisubramanian — zaprojektowali CLIPR (Conversational Learning for Inferring Preferences and Reasoning) jako framework, który uczy się praktycznych, transferowalnych zasad w języku naturalnym reprezentujących ukryte preferencje użytkowników. System wymaga jedynie minimalnych danych wejściowych z rozmów.
Framework działa w środowisku, gdzie LLM odpowiada za rozumowanie wysokiego poziomu i wnioskowanie o ukrytych preferencjach użytkowników na podstawie ograniczonych interakcji. Te wyuczone preferencje następnie kierują podejmowaniem decyzji w dalszych procesach. CLIPR iteracyjnie udoskonala swoje zasady poprzez adaptacyjne mechanizmy zwrotne i stosuje je zarówno do zadań z rozkładu treningowego, jak i do nowych, niewidzianych wcześniej zadań w różnych środowiskach.
Kluczową innowacją jest zdolność systemu do tworzenia zasad w języku naturalnym, które można przenosić między kontekstami. To oznacza, że preferencje wyuczone w jednym obszarze mogą być skutecznie aplikowane do zupełnie różnych sytuacji decyzyjnych.
Przeprowadzone ewaluacje na trzech zestawach danych oraz badanie z udziałem rzeczywistych użytkowników pokazały, że CLIPR konsekwentnie przewyższa istniejące metody w poprawianiu zgodności z oczekiwaniami ludzi, jednocześnie redukując koszty inferencji. To podwójne osiągnięcie — lepsza jakość przy niższych kosztach — czyni to rozwiązanie szczególnie atrakcyjnym dla praktycznych zastosowań.