Knowledge Seeker

Start projektu: kwiecień 2025 — sierpień 2025

Rola: Tech Lead / Architekt

Firma: GOTOIT sp. z o.o.

Status: Produkcja

Opis projektu

Knowledge Seeker to zaawansowane narzędzie do transkrypcji, indeksowania i wyszukiwania informacji w nagraniach wideo.

Użytkownicy posiadający dostęp do dużych zasobów nagrań wideo (kursy, szkolenia, sesje mentoringowe) mieli trudności z szybkim odnajdywaniem konkretnych informacji. Manualne przeszukiwanie setek materiałów było czasochłonne i nieefektywne.

Jako lider projektu koordynuję rozwój systemu wykorzystującego najnowsze technologie AI do przetwarzania mowy na tekst i implementacji zaawansowanych mechanizmów wyszukiwania semantycznego.

Aplikacja umożliwia użytkownikom nie tylko znajdowanie konkretnych informacji w obszernych zasobach wideo, ale także generowanie odpowiedzi na zapytania w oparciu o zgromadzoną wiedzę przy użyciu architektury RAG (Retrieval-Augmented Generation).

Rozwiązanie

Zaprojektowałem system oparty o architekturę RAG (Retrieval-Augmented Generation), łączący automatyczną transkrypcję nagrań wideo, wyszukiwanie semantyczne w bazie wektorowej oraz generowanie odpowiedzi przez modele językowe.

Architektura

Architektura systemu

Główne funkcjonalności

Transkrypcja nagrań wideo na tekst z zachowaniem metadanych czasowych (timestampy)
Przetwarzanie transkrypcji poprzez chunking i generowanie embeddingów
Baza wektorowa do przechowywania i efektywnego wyszukiwania embeddingów
Interfejs użytkownika umożliwiający zarówno proste, jak i semantyczne wyszukiwanie treści
System RAG (Retrieval-Augmented Generation) do generowania odpowiedzi na zapytania użytkowników
Wdrożenie w chmurze Digital Ocean zapewniające skalowalność i dostępność
Eksport danych w formatach JSON i możliwość streamingu do API użytkownika

Co zrobiłem

Zaprojektowałem architekturę systemu oraz pipeline przetwarzania danych
Zaimplementowałem transkrypcję audio → tekst z użyciem Whisper
Opracowałem chunking dokumentów oraz generowanie embeddingów
Skonfigurowałem bazę wektorową Qdrant
Zbudowałem backend API w FastAPI
Stworzyłem interfejs użytkownika w Streamlit
Wdrożyłem system w chmurze DigitalOcean (Docker)

Plan rozwoju

Integracja z dodatkowymi źródłami danych (dokumenty, prezentacje, audio)
Rozbudowa mechanizmów RAG o zaawansowane techniki filtrowania i re-rankingu
Implementacja komponentów do automatycznej weryfikacji i aktualizacji bazy wiedzy
Optymalizacja procesów indeksowania i wyszukiwania dla większych zbiorów danych
Rozwój interfejsu API umożliwiającego integrację z zewnętrznymi aplikacjami

Umiejętności

Python
OpenAI
Whisper
Qdrant
FastAPI
Streamlit
Docker
DigitalOcean
LLM (Large Language Models)
Natural Language Processing
Vector Databases
RAG (Retrieval-Augmented Generation)
Microservice Architecture

Rezultaty

400+ nagrań wideo przeszukiwalnych w czasie rzeczywistym
Skrócenie czasu odnajdywania informacji z minut do sekund
Gotowy do skalowania, produkcyjny system AI