Knowledge Seeker
Start projektu: kwiecień 2025 — sierpień 2025
Rola: Tech Lead / Architekt
Firma: GOTOIT sp. z o.o.
Status: Produkcja
Opis projektu
Knowledge Seeker to zaawansowane narzędzie do transkrypcji, indeksowania i wyszukiwania informacji w nagraniach wideo.
Użytkownicy posiadający dostęp do dużych zasobów nagrań wideo (kursy, szkolenia, sesje mentoringowe) mieli trudności z szybkim odnajdywaniem konkretnych informacji. Manualne przeszukiwanie setek materiałów było czasochłonne i nieefektywne.
Jako lider projektu koordynuję rozwój systemu wykorzystującego najnowsze technologie AI do przetwarzania mowy na tekst i implementacji zaawansowanych mechanizmów wyszukiwania semantycznego.
Aplikacja umożliwia użytkownikom nie tylko znajdowanie konkretnych informacji w obszernych zasobach wideo, ale także generowanie odpowiedzi na zapytania w oparciu o zgromadzoną wiedzę przy użyciu architektury RAG (Retrieval-Augmented Generation).
Rozwiązanie
Zaprojektowałem system oparty o architekturę RAG (Retrieval-Augmented Generation), łączący automatyczną transkrypcję nagrań wideo, wyszukiwanie semantyczne w bazie wektorowej oraz generowanie odpowiedzi przez modele językowe.
Architektura

Główne funkcjonalności
- Transkrypcja nagrań wideo na tekst z zachowaniem metadanych czasowych (timestampy)
- Przetwarzanie transkrypcji poprzez chunking i generowanie embeddingów
- Baza wektorowa do przechowywania i efektywnego wyszukiwania embeddingów
- Interfejs użytkownika umożliwiający zarówno proste, jak i semantyczne wyszukiwanie treści
- System RAG (Retrieval-Augmented Generation) do generowania odpowiedzi na zapytania użytkowników
- Wdrożenie w chmurze Digital Ocean zapewniające skalowalność i dostępność
- Eksport danych w formatach JSON i możliwość streamingu do API użytkownika
Co zrobiłem
- Zaprojektowałem architekturę systemu oraz pipeline przetwarzania danych
- Zaimplementowałem transkrypcję audio → tekst z użyciem Whisper
- Opracowałem chunking dokumentów oraz generowanie embeddingów
- Skonfigurowałem bazę wektorową Qdrant
- Zbudowałem backend API w FastAPI
- Stworzyłem interfejs użytkownika w Streamlit
- Wdrożyłem system w chmurze DigitalOcean (Docker)
Plan rozwoju
- Integracja z dodatkowymi źródłami danych (dokumenty, prezentacje, audio)
- Rozbudowa mechanizmów RAG o zaawansowane techniki filtrowania i re-rankingu
- Implementacja komponentów do automatycznej weryfikacji i aktualizacji bazy wiedzy
- Optymalizacja procesów indeksowania i wyszukiwania dla większych zbiorów danych
- Rozwój interfejsu API umożliwiającego integrację z zewnętrznymi aplikacjami
Umiejętności
- Python
- OpenAI
- Whisper
- Qdrant
- FastAPI
- Streamlit
- Docker
- DigitalOcean
- LLM (Large Language Models)
- Natural Language Processing
- Vector Databases
- RAG (Retrieval-Augmented Generation)
- Microservice Architecture
Rezultaty
- 400+ nagrań wideo przeszukiwalnych w czasie rzeczywistym
- Skrócenie czasu odnajdywania informacji z minut do sekund
- Gotowy do skalowania, produkcyjny system AI