Przejdź do treści

Active Deterrence

Start projektu: grudzień 2025 — obecnie

Rola: AI / Computer Vision Engineer

Status: 🟢 Aktywny rozwój

Współpraca: SmartDrones, Karabela


Opis projektu

Active Deterrence to system AI Vision dla autonomicznych dronów security. Projekt adresuje kluczową lukę w obecnych rozwiązaniach bezpieczeństwa: istniejące systemy potrafią wykryć ruch, ale nie rozumieją tego, co widzą i nie mogą odpowiednio zareagować.

Obecne ograniczenia autonomicznych dronów security:

  • detekcja bez zrozumienia — potrafią wykryć ruch, ale nie klasyfikują, co wywołało alert
  • wysoki poziom fałszywych alarmów — alerty wywoływane przez zwierzęta, cienie, liście
  • brak inteligentnej reakcji — operatorzy są zalewani powiadomieniami
  • tylko pasywny monitoring — brak możliwości aktywnego odstraszania

Buduję kompletny pipeline AI, który przekształca surowy materiał wideo z drona w użyteczną inteligencję bezpieczeństwa — wykrywając i klasyfikując obiekty (osoby, pojazdy), filtrując fałszywe alarmy i umożliwiając automatyczne odstraszanie głosowe po wykryciu intruza.


Architektura

Active Deterrence to pipeline obraz → detekcja → decyzja → głos:

  • Ingestion wideo — MP4/RTSP/JPG z dronów (tryby dzień + IR/noc)
  • Warstwa Computer Vision — YOLOv8 dostrojony na nagraniach z dronów
  • Logika alertów — próg pewności (40%+), alert cooldown, sampling klatek
  • Voice AI (Active Deterrence) — ElevenLabs TTS do alertów głosowych w czasie rzeczywistym (~300-500ms latencji)
  • Pipeline treningowy — GPU Droplet (H100/A100) na Digital Ocean z monitoringiem TensorBoard

Rozwój modelu

Kluczowym aspektem projektu był iteracyjny proces treningu modelu. Przeprowadziłem 4 iteracje treningu z różnymi kombinacjami datasetów:

Model Dataset mAP@50 Precision Recall Kluczowy wniosek
v2 Tylko Karabela (218 img) 82.4% 86.7% 85.4% Baseline, zaobserwowany overfitting
v3 Karabela + HIT-UAV (~3k img) 93.5% 93.2% 90.3% Najlepsza wydajność
v4 + VisDrone (~10k img) 62.0% 79.1% 57.4% Degradacja przez domain mismatch

Wnioski techniczne

Więcej danych ≠ lepszy model
Dodanie 10 000 zdjęć z VisDrone faktycznie pogorszyło wyniki. Analiza ujawniła nierównowagę klas (dominacja pojazdów), domain mismatch (różne wysokości/kąty) i problemy z małymi obiektami.

Analiza Confusion Matrix jest krytyczna
Model v4 wykazał 9000 false negatives dla klasy vehicle — obiekty, które model całkowicie pominął. To ukierunkowało strategię optymalizacji.

Detekcja małych obiektów jest trudna
Pojazdy z wysokopułapowego nagrania drona często pojawiają się jako obiekty <20px. Rozwiązania obejmują SAHI (Slicing Aided Hyper Inference), preprocessing przez kafelkowanie i większe architektury modeli.


Co zrobiłem

  1. Zaprojektowałem architekturę systemu AI Vision dla dronów security
  2. Zbudowałem pipeline danych do pobierania i audytu z Google Drive
  3. Wykonałem labeling w Roboflow (klasy person, vehicle)
  4. Wytrenowałem 4 iteracje modelu z różnymi datasetami
  5. Zintegrowałem zewnętrzne datasety (HIT-UAV, VisDrone)
  6. Przeanalizowałem confusion matrix i zidentyfikowałem problemy small objects
  7. Zintegrowałem ElevenLabs TTS do alertów głosowych
  8. Zbudowałem demo Streamlit z pełnym flow: upload → detekcja → alert
  9. Przygotowałem infrastrukturę treningu GPU (Digital Ocean + TensorBoard)

Umiejętności

Kategoria Technologie
Computer Vision YOLOv8, PyTorch, OpenCV, Roboflow
Deep Learning Transfer Learning, Hyperparameter Tuning
MLOps TensorBoard, Digital Ocean GPU, Docker
Voice AI ElevenLabs TTS
Backend FastAPI, Python
Frontend Streamlit
Dane FFmpeg, narzędzia do adnotacji

Rezultaty

  • Model v3 z mAP 93.5% — najlepszy wynik
  • Działające demo: upload → detekcja → alert głosowy
  • Zidentyfikowany problem detekcji małych obiektów (klasa vehicle)
  • Pipeline treningowy gotowy do skalowania
  • System Voice AI z latencją ~300-500ms
  • Infrastruktura treningu GPU na Digital Ocean

Roadmapa

MVP (Styczeń 2026)

  • Computer Vision — detekcja osób/pojazdów
  • Model v2/v3/v4 (iteracyjny trening)
  • Demo Streamlit z Voice AI
  • Analiza confusion matrix

Następna faza: Optymalizacja hiperparametrów (Q1 2026)

  • Trening na GPU Droplet z tuningiem hiperparametrów
  • Workflow SAHI dla detekcji małych obiektów
  • Strategie balansowania klas

Przyszłość: MLOps i produkcja (Q1-Q2 2026)

  • MLflow Tracking & Model Registry
  • Wdrożenie backendu FastAPI
  • Inferencja RTSP w czasie rzeczywistym
  • Integracja z platformą SmartDrones

Zdjęcia

Detekcja osoby Detekcja pojazdu Detekcja wieloobiektowa