Model „Count Anything” z Uniwersytetu Tsinghua potrafi liczyć obiekty od zdjęć satelitarnych po skany medyczne, używając tylko tekstowych poleceń.

Źródło zdjęcia: The Decoder
Naukowcy z Uniwersytetu Tsinghua opracowali model sztucznej inteligencji o nazwie „Count Anything”, który potrafi liczyć i oznaczać obiekty w różnorodnych typach obrazów — od zdjęć satelitarnych i skanów medycznych po codzienne fotografie. Szczegóły badania zostały opublikowane w artykule na The Decoder.
Chociaż liczenie obiektów wydaje się prostym zadaniem, w rzeczywistości stanowi jedno z większych wyzwań dla współczesnych systemów AI. Błędne wyniki mogą mieć poważne konsekwencje — od diagnozy medycznej, przez szacowanie plonów, po analizę ruchu miejskiego.
Kluczem do sukcesu „Count Anything” jest połączenie dwóch uzupełniających się strategii. Pierwsza specjalizuje się w dużych, wyraźnie widocznych obiektach i otacza je ramkami. Druga radzi sobie z małymi, gęsto upakowanymi obiektami, stawiając punkt na każdym wykrytym celu.
System bazuje na pretrealowanym modelu Meta o nazwie SAM3, który potrafi przetwarzać obrazy i tekst jednocześnie. „Count Anything” dodaje małe komponenty adaptera zamiast przekształcać cały model od podstaw. Proste zasady zapobiegają podwójnemu liczeniu tego samego obiektu — gdy oba liczniki oznaczają ten sam cel, przetrwa tylko predykcja o wyższej pewności.
Aby model mógł uczyć się tak szeroko, naukowcy musieli najpierw stworzyć odpowiedni zbiór danych. Istniejące publiczne zbiory były zwykle budowane z myślą o jednym celu, jak komórki nowotworowe czy obrazy satelitarne. Badacze połączyli je, oczyścili sprzeczne etykiety i wydali wynik jako CLOC — według ich słów największy zbiór danych do liczenia obiektów kierowanego tekstem.
Zbiór zawiera obrazy z sześciu bardzo różnych dziedzin: codzienne zdjęcia, obrazy satelitarne i z dronów, próbki tkanek medycznych, mikroskopowe obrazy komórek, zdjęcia rolnicze oraz fotografie kultur bakteryjnych. Wraz ze wzrostem danych treningowych CLOC, wskaźniki błędów modelu spadają znacznie, pokazując wartość dużych, междоменnych zbiorów danych do liczenia.
Pomimo obiecujących wyników, model wciąż napotyka ograniczenia. Gdy terminy są niejednoznaczne lub wysoce wyspecjalizowane, może pomijać obiekty lub błędnie je klasyfikować. W ekstremalnie gęstych scenach z dużym zasłonięciem trudno jest też określić, czy dwie predykcje odnoszą się do tego samego obiektu czy dwóch różnych.
Problem z podstawowymi zadaniami wizualnymi w AI został niedawno pokazany przez benchmark BabyVision. W testach z 80 dziećmi większość najnowocześniejszych modeli uzyskała wyniki poniżej przeciętnego trzylatka. Nawet najlepsze modele jak Gemini 3 Pro ledwo osiągnęły 50 procent, podczas gdy dorośli zdobyli ponad 94 procent.
„Count Anything” reprezentuje znaczący krok naprzód w uniwersalnym liczeniu obiektów, oferując jedno rozwiązanie dla zadań, które wcześniej wymagały wyspecjalizowanych systemów dla każdej dziedziny.

Prezes Andy Jassy podzielił się z rządem wynikami badań cyberbezpieczeństwa dotyczących podatności w Fable 5, co skutkowało kontrolami eksportowymi.

Rząd USA nakazał Anthropic wyłączenie Claude Fable 5 i Mythos 5 po odkryciu metody omijania zabezpieczeń modeli AI. Firma spiera się z administracją Trumpa.

Nowy framework diagnostyczny pokazuje, że modele AI tracą 50–64% wydajności przy realistycznych zapytaniach, mimo dobrych wyników w standardowych testach.