Lokalny model o jakości konkurencyjnej z komercyjnymi rozwiązaniami otwiera nowe możliwości manipulacji aktywacji AI podczas inferencji.

Źródło zdjęcia: seangoedecke.com
Wprowadzenie do steering vectors ponownie zyskuje na znaczeniu dzięki DeepSeek-V4-Flash — pierwszemu lokalnemu modelowi o jakości konkurencyjnej z komercyjnymi rozwiązaniami. Sean Goedecke przedstawia szczegółową analizę tej techniki manipulacji aktywacji modeli językowych, wyjaśniając dlaczego może ona rewolucjonizować sposób kontrolowania zachowań AI. Pełna analiza dostępna jest w oryginalnym artykule.
Steering vectors opiera się na ekstraktowaniu konceptów z wewnętrznego stanu „mózgu” modelu. Podstawowa metoda polega na podaniu modelowi tych samych stu promptów dwukrotnie — raz normalnie, raz z dodanym modyfikatorem jak „odpowiadaj zwięźle”. Różnica w aktywacjach między tymi przebiegami tworzy „wektor sterujący”, który można następnie dodawać do dowolnego prompta, aby uzyskać podobny efekt.
Bardziej zaawansowane podejście wykorzystuje drugie modele do ekstraktowania „cech” z aktywacji — wzorców zachowań występujących razem. Anthropic stosuje tę metodę z rzadkimi autoenkoderami, pozwalając na wychwytywanie głębszych wzorców, choć kosztem znacznie większej złożoności obliczeniowej i wymaganej ekspertyzy.
Steering vectors znajdują się w specyficznej niszy badawczej. Wielkie laboratoria AI nie potrzebują tej techniki — mogą bezpośrednio manipulować swoje modele bez „operacji mózgu” podczas inferencji. Gdy Anthropic czy OpenAI chcą zmienić zachowanie modelu, po prostu go trenują.
Z drugiej strony, zwykli użytkownicy nie mają dostępu do wag modeli ani aktywacji potrzebnych do steering przez API. Tylko OpenAI może identyfikować wektory sterujące dla GPT-5.5. Choć można to robić z modelami open-weights, do niedawna nie było wystarczająco silnych otwartych modeli, by było to opłacalne.
Dodatkowo, większość podstawowych zastosowań steering przegrywa z zwykłym promptowaniem. Chociaż manipulacja mózgu modelu brzmi imponująco, tokeny promptu także manipulują mózgiem modelu bezpośrednio. Można osiągnąć bardzo precyzyjną kontrolę przez dostrojenie języka prompta — po co więc trudzić się ze steering, gdy można po prostu poprosić?
Prawdziwa wartość steering może leżeć w manipulowaniu konceptami, których nie da się wywołać przez prompty. Przykładem może być „inteligencja” — kiedyś można było promptować o inteligencję (stąd powszechne „jesteś ekspertem” w era GPT-4), ale obecne modele mają to wbudowane, więc promptowanie nic nie daje.
Autor pozostaje jednak sceptyczny wobec możliwości znalezienia wektora sterującego „inteligencją”. Wektor reprezentujący tak złożony koncept może być niemal współrozległy z całym zestawem wag modelu, więc jego identyfikacja sprowadza się do problemu „wytrenowania inteligentnego modelu”.
Wystarczająco zaawansowane podejście do steering kończy się zastępowaniem całego modelu. Jeśli w GPT-2 na każdej warstwie zastąpimy aktywacje aktywacjami z silniejszego modelu, otrzymamy lepszy rezultat — ale to nie oznacza uczynienia GPT-2 inteligentniejszym, to po prostu rozmowa z silniejszym modelem.
DeepSeek-V4-Flash może jednak zmienić tę sytuację, oferując pierwszy lokalny model o jakości wystarczającej do praktycznych eksperymentów z steering vectors na szerszą skalę.

Miliarder i kandydat na gubernatora Kalifornii Tom Steyer stoi przed dylematem: jak opodatkować najbogatszych, nie odstraszając firm technologicznych

Naukowcy opisują system przetwarzający tysiące dokumentów na godzinę, odkrywając że OCR, nie LLM, jest głównym wąskim gardłem wydajności.

Chiński Deepseek przekształca promocję w stałą strategię cenową. Model V4 Pro kosztuje 0,87$ za milion tokenów wyjściowych wobec 30$ u GPT-5.5.