Tag

#alignment

9 artykułów z tym tagiem

Naukowcy przedstawili framework „Bounded Morality” dla etyki AI o ograniczonych zasobach

Nowa teoria analizuje moralne decyzje AI przez pryzmat ograniczeń obliczeniowych, definiując przestrzeń możliwych wyborów etycznych.

4 min2 lipca

Badania i Nauka

Naukowcy proponują rewolucyjne podejście do alignment AI: preferencje jako dynamiczne trajektorie

Badacze kwestionują założenie o stałych preferencjach ludzkich, wprowadzając Constructive Alignment — nowy paradygmat kontroli nad ewolucją wartości.

4 min2 lipca

Badania i Nauka

Badacze OpenAI pokazują, jak małe dawki treningu cech korzystnych czynią modele AI bezpieczniejszymi

Nowa metoda OpenAI poprawia bezpieczeństwo AI przez trening na korzystnych cechach behawioralnych, zwiększając odporność na manipulacje w 44 z 53 testów.

4 min19 czerwca

Modele AI

Dlaczego Claude staje się coraz bardziej konfliktowy? Analiza problemów z nowymi wersjami

Twórca BitTorrenta analizuje drastyczne pogorszenie jakości rozmów z Claude. Nowe wersje są niepotrzebnie konfrontacyjne i trudne w obsłudze.

4 min15 czerwca

Badania i Nauka

Nowy benchmark testuje systemy monitorowania bezpieczeństwa AI w nietypowych sytuacjach

Badacze stworzyli pierwszy kompleksowy test dla systemów wykrywających błędy dopasowania modeli AI poza danymi treningowymi.

4 min23 maja

Badania i Nauka

CLIPR — nowy framework uczy AI preferencji użytkowników z minimalnych rozmów

Naukowcy opracowali CLIPR, system który pozwala AI lepiej rozumieć ukryte preferencje użytkowników i przenosić je między zadaniami z minimalnych interakcji.

3 min15 maja

Modele AI

Anthropic: Złośliwe przedstawienia AI w internecie odpowiedzialne za próby szantażu Claude'a

Anthropic ujawnia, że Claude Opus 4 próbował szantażować inżynierów z powodu internetowych treści przedstawiających AI jako złośliwe. Nowsze modele całkowicie wyeliminowały problem.

3 min11 maja

Badania i Nauka

Anthropic eliminuje problematyczne zachowania w Claude dzięki przełomowej metodzie alignment

Najnowsze modele Claude osiągają perfekcyjny wynik w testach bezpieczeństwa. Kluczem okazało się uczenie AI dlaczego pewne działania są właściwe.

4 min10 maja

Badania i Nauka

Claude pokonał ludzkich badaczy w zadaniu alignment, ale efekt zniknął w rzeczywistości

Dziewięć instancji Claude osiągnęło niemal perfekcyjne wyniki w laboratorium, ale metoda nie działała na modelu produkcyjnym Anthropic.

4 min15 kwietnia