Nowy model AI o 4 mld parametrów dla cyberbezpieczeństwa działa lokalnie i osiąga 97% dokładności 8-miliardowego konkurenta przy połowie rozmiaru.
Źródło zdjęcia: huggingface.co
Dane OpenAI za Q1 2026 pokazują, że kobiety stanowią już ponad połowę użytkowników ChatGPT, a największy wzrost adopcji odnotowano w krajach Ameryki Łacińskiej i Afryki.

Firmy coraz częściej używają AI do monitorowania emocji pracowników, choć systemy wykazują bias rasowy i opierają się na kwestionowanej nauce.
Zespół badaczy zaprezentował CyberSecQwen-4B — wyspecjalizowany model AI o rozmiarze 4 miliardów parametrów, przeznaczony dla cyberbezpieczeństwa obronnego. Model został wytrenowany na jednym procesorze graficznym AMD Instinct MI300X i ma działać lokalnie, bez konieczności wysyłania wrażliwych danych do zewnętrznych serwerów. Szczegóły projektu opisano w artykule na Hugging Face.
Autorzy projektu argumentują, że duże modele generatywne, choć uniwersalne, mają istotne ograniczenia w zastosowaniach obronnych. Wysyłanie wrażliwych danych — jak raporty incydentów, payloady ataków czy szkice ujawnień podatności — do zewnętrznych API może samo w sobie stanowić naruszenie bezpieczeństwa.
Koszty API również stanowią barierę. Średniej wielkości centrum operacji bezpieczeństwa (SOC) przetwarza tysiące alertów o niskim poziomie pewności dziennie. Automatyzacja zadań takich jak „wyjaśnij tę podatność CVE” czy „jakie CWE tutaj stosuje” może szybko stać się problemem budżetowym przy użyciu hostowanych modeli.
Dodatkowo, środowiska typu air-gap oraz częściowo połączone sieci są standardem w infrastrukturze krytycznej, służbie zdrowia i instytucjach rządowych. Jeśli narzędzie nie może działać na laptopie lub pojedynczej karcie graficznej, nie zostanie tam wdrożone.
Model wykorzystuje jako bazę Qwen3–4B-Instruct-2507 — najlepiej działający model 4B dostępny w czasie treningu, z licencją Apache-2.0. Kluczową decyzją było fine-tunowanie od wersji instruction-tuned, a nie bazowej, co pozwoliło zachować odpowiedni format odpowiedzi dla zadań wielokrotnego wyboru.
W testach porównawczych na benchmarku CTI-Bench, CyberSecQwen-4B osiągnął:
Model wykorzystuje konfigurację LoRA z r=64, alpha=64, learning rate 5e-5 oraz FlashAttention-2 dla optymalizacji pamięci i prędkości. Cały proces — trening, łączenie adapterów i ewaluacja — odbywa się na jednym AMD Instinct MI300X z 192 GB pamięci HBM3.
Dane treningowe składają się z dwóch zbiorów: mapowań CVE→CWE z lat 2021 z publicznych rekordów MITRE/NVD oraz syntetycznych danych Q&A generowanych przez silniejszy model nauczyciel. Kluczowo, wszystkie przecięcia z zestawem ewaluacyjnym CTI-Bench zostały usunięte przed treningiem, zapewniając rzetelne wyniki testów.
CyberSecQwen-4B pokazuje, że wyspecjalizowane modele o mniejszych rozmiarach mogą skutecznie konkurować z większymi odpowiednikami w wąskich domenach, jednocześnie oferując praktyczne korzyści w postaci lokalnego wdrażania i kontroli nad wrażliwymi danymi.