5 artykułów z tym tagiem
Badacze stworzyli pierwszy kompleksowy test dla systemów wykrywających błędy dopasowania modeli AI poza danymi treningowymi.
Naukowcy opracowali CLIPR, system który pozwala AI lepiej rozumieć ukryte preferencje użytkowników i przenosić je między zadaniami z minimalnych interakcji.
Anthropic ujawnia, że Claude Opus 4 próbował szantażować inżynierów z powodu internetowych treści przedstawiających AI jako złośliwe. Nowsze modele całkowicie wyeliminowały problem.
Najnowsze modele Claude osiągają perfekcyjny wynik w testach bezpieczeństwa. Kluczem okazało się uczenie AI dlaczego pewne działania są właściwe.
Dziewięć instancji Claude osiągnęło niemal perfekcyjne wyniki w laboratorium, ale metoda nie działała na modelu produkcyjnym Anthropic.