13 czerwca 20264 min czytania

Nowy model AI „Count Anything” liczy obiekty na każdym typie obrazu

Model „Count Anything” z Uniwersytetu Tsinghua potrafi liczyć obiekty od zdjęć satelitarnych po skany medyczne, używając tylko tekstowych poleceń.

Źródło zdjęcia: The Decoder

Naukowcy z Uniwersytetu Tsinghua opracowali model sztucznej inteligencji o nazwie „Count Anything”, który potrafi liczyć i oznaczać obiekty w różnorodnych typach obrazów — od zdjęć satelitarnych i skanów medycznych po codzienne fotografie. Szczegóły badania zostały opublikowane w artykule na The Decoder.

Chociaż liczenie obiektów wydaje się prostym zadaniem, w rzeczywistości stanowi jedno z większych wyzwań dla współczesnych systemów AI. Błędne wyniki mogą mieć poważne konsekwencje — od diagnozy medycznej, przez szacowanie plonów, po analizę ruchu miejskiego.

Kluczowe wnioski

Model „Count Anything” łączy dwa podejścia: rysuje ramki wokół dużych obiektów i stawia punkty na małych, gęsto upakowanych celach, następnie scala wyniki bez podwójnego liczenia.
System został wytrenowany na niestandardowym zbiorze danych CLOC zawierającym około 220 000 obrazów, 619 kategorii i 15 milionów oznaczonych obiektów z sześciu różnych dziedzin.
W testach porównawczych model przewyższa konkurencję jak CountGD, CLIP-Count i Grounding DINO, mylając się średnio o około dziewięć obiektów na kategorię.
Model nadal ma trudności z niejednoznacznymi terminami i ekstremalnie gęstymi scenami, ale stanowi znaczący postęp w uniwersalnym liczeniu obiektów.

Innowacyjne podejście łączące dwie metody

Kluczem do sukcesu „Count Anything” jest połączenie dwóch uzupełniających się strategii. Pierwsza specjalizuje się w dużych, wyraźnie widocznych obiektach i otacza je ramkami. Druga radzi sobie z małymi, gęsto upakowanymi obiektami, stawiając punkt na każdym wykrytym celu.

System bazuje na pretrealowanym modelu Meta o nazwie SAM3, który potrafi przetwarzać obrazy i tekst jednocześnie. „Count Anything” dodaje małe komponenty adaptera zamiast przekształcać cały model od podstaw. Proste zasady zapobiegają podwójnemu liczeniu tego samego obiektu — gdy oba liczniki oznaczają ten sam cel, przetrwa tylko predykcja o wyższej pewności.

Największy zbiór danych do liczenia obiektów

Aby model mógł uczyć się tak szeroko, naukowcy musieli najpierw stworzyć odpowiedni zbiór danych. Istniejące publiczne zbiory były zwykle budowane z myślą o jednym celu, jak komórki nowotworowe czy obrazy satelitarne. Badacze połączyli je, oczyścili sprzeczne etykiety i wydali wynik jako CLOC — według ich słów największy zbiór danych do liczenia obiektów kierowanego tekstem.

Zbiór zawiera obrazy z sześciu bardzo różnych dziedzin: codzienne zdjęcia, obrazy satelitarne i z dronów, próbki tkanek medycznych, mikroskopowe obrazy komórek, zdjęcia rolnicze oraz fotografie kultur bakteryjnych. Wraz ze wzrostem danych treningowych CLOC, wskaźniki błędów modelu spadają znacznie, pokazując wartość dużych, междоменnych zbiorów danych do liczenia.

Ograniczenia i przyszłe wyzwania

Pomimo obiecujących wyników, model wciąż napotyka ograniczenia. Gdy terminy są niejednoznaczne lub wysoce wyspecjalizowane, może pomijać obiekty lub błędnie je klasyfikować. W ekstremalnie gęstych scenach z dużym zasłonięciem trudno jest też określić, czy dwie predykcje odnoszą się do tego samego obiektu czy dwóch różnych.

Problem z podstawowymi zadaniami wizualnymi w AI został niedawno pokazany przez benchmark BabyVision. W testach z 80 dziećmi większość najnowocześniejszych modeli uzyskała wyniki poniżej przeciętnego trzylatka. Nawet najlepsze modele jak Gemini 3 Pro ledwo osiągnęły 50 procent, podczas gdy dorośli zdobyli ponad 94 procent.

„Count Anything” reprezentuje znaczący krok naprzód w uniwersalnym liczeniu obiektów, oferując jedno rozwiązanie dla zadań, które wcześniej wymagały wyspecjalizowanych systemów dla każdej dziedziny.

#liczenie obiektów #wizja komputerowa #SAM3 #Count Anything #CLOC

Udostępnij

Źródła

The Decoder

Poprzedni

Claude Fable 5 wyprzedza GPT-5.5 o 13 punktów w najtrudniejszych zadaniach matematycznych

Następny

Brazylijskie Rio-3.5 to połączenie modeli Nex i Qwen, nie własna innowacja

Podobne Publikacje

Biznes i Rynek

Dlaczego Chiny rozdają swoje najlepsze modele AI za darmo

Moonshot AI udostępnia model Kimi K3 bezpłatnie, co może zmienić równowagę sił w branży AI i zagrozić dominacji amerykańskich platform.

4 min27 lipca

Modele AI

Claude Opus 5 czterokrotnie przewyższa GPT-5.6 Sol w benchmarku rzeczywistej inteligencji

Anthropic Claude Opus 5 osiągnął 30,2% w ARC-AGI-3, przewyższając czterokrotnie rekord GPT-5.6 Sol. Model wykazał nowe zdolności rozumowania algebraicznego.

4 min26 lipca

Etyka i Bezpieczeństwo

Pisarze tworzą anty-AI kontrkulturu literacką z celowymi błędami i nietypową interpunkcją

Autorzy świadomie wprowadzają błędy i unikają schematów AI, tworząc nowy styl pisania podkreślający ludzkie autorstwo w erze sztucznej inteligencji.

4 min29 lipca

Kluczowe wnioski

Model „Count Anything” łączy dwa podejścia: rysuje ramki wokół dużych obiektów i stawia punkty na małych, gęsto upakowanych celach, następnie scala wyniki bez podwójnego liczenia.

System został wytrenowany na niestandardowym zbiorze danych CLOC zawierającym około 220 000 obrazów, 619 kategorii i 15 milionów oznaczonych obiektów z sześciu różnych dziedzin.

W testach porównawczych model przewyższa konkurencję jak CountGD, CLIP-Count i Grounding DINO, mylając się średnio o około dziewięć obiektów na kategorię.

Model nadal ma trudności z niejednoznacznymi terminami i ekstremalnie gęstymi scenami, ale stanowi znaczący postęp w uniwersalnym liczeniu obiektów.

Innowacyjne podejście łączące dwie metody

Największy zbiór danych do liczenia obiektów

Ograniczenia i przyszłe wyzwania