Remote Site Reliability Engineer
Tech Stack / Keywords
Firma i stanowisko
Pracujemy dla klienta z branży usług operacyjnych i technologicznych, który odpowiada za utrzymanie i skalowanie procesów krytycznych biznesowo dla swoich klientów. Organizacja łączy model managed services z własną platformą SaaS i systemem CRM, integrując operacje, technologię w jednym środowisku. Infrastruktura jest projektowana z myślą o wysokiej dostępności, przewidywalności działania i bezpieczeństwie danych, dlatego duży nacisk kładziony jest na stabilność oraz jakość operacyjną. To środowisko, w którym decyzje infrastrukturalne mają realny wpływ na ciągłość działania usług i doświadczenie końcowych użytkowników.
Wymagania
- Minimum 4 lata doświadczenia na stanowisku DevOps, Site Reliability Engineer lub pokrewnym, w pracy z infrastrukturą produkcyjną.
- Bardzo dobra znajomość systemów Linux (Ubuntu) na poziomie operacyjnym (systemd, nftables, LVM/mdadm, systemy plików, tuning jądra) oraz umiejętność diagnozowania problemów na podstawie logów i metryk.
- Znajomość PostgreSQL na poziomie operatorskim (replikacja streamingowa, WAL, vacuum, analiza planów zapytań, debugowanie wydajności) oraz doświadczenie z rozwiązaniami HA (Patroni) i strategiami backupu/restore (np. pgBackRest lub równoważne).
- Doświadczenie w pracy z HashiCorp Nomad (service discovery, KV store, templating) oraz w zarządzaniu środowiskiem kontenerowym opartym o Docker (volumes, networking, health checks).
- Umiejętność konfiguracji i utrzymania HAProxy w warstwie L4 i L7 (SNI, TLS, ACL, wysokiej dostępności) oraz dobra znajomość zagadnień sieciowych, w tym WireGuard, Headscale lub rozwiązań typu overlay networking.
- Doświadczenie w pracy z monitoringiem i obserwowalnością (Grafana lub VictoriaMetrics, VictoriaLogs) oraz umiejętność pracy z metrykami, alertami i diagnozowania problemów produkcyjnych.
- Doświadczenie w automatyzacji z wykorzystaniem Ansible (playbooks, role, templates, idempotentność) oraz znajomość Bash i GitLab (praca z pull requestami i code review).
- Bardzo dobra znajomość języka polskiego w mowie i piśmie (praca i dokumentacja w języku polskim).
Nice to have:
- Doświadczenie w automatyzacji zarządzania certyfikatami (np. Let’s Encrypt, DNS-01).
- Znajomość TLS, PKI oraz kryptografii aplikacyjnej na poziomie pozwalającym diagnozować problemy (np. handshake, certyfikaty, ALPN).
- Doświadczenie w tuningu systemu (sysctl, zarządzanie pamięcią, IO schedulers).
- Znajomość Python wykorzystywanego do automatyzacji (mile widziane podejście asynchroniczne).
- Doświadczenie ze środowiskiem Hetzner lub infrastrukturą bare-metal.
- Znajomość zagadnień związanych z ochroną danych i bezpieczeństwem (np. RODO, dane wrażliwe, NISII).
- Doświadczenie we współpracy z klientem lub zewnętrznym software house’em.
- Udział w projektach związanych z narzędziami takimi jak Patroni, Nomad, Consul, Headscale, HAProxy lub elementami ekosystemu monitoringu.
Obowiązki
- Utrzymanie i rozwój infrastruktury produkcyjnej opartej o bare-metal oraz zapewnienie wysokiej dostępności kluczowych systemów, orkiestrowanych Nomadem w szczególności klastrów PostgreSQL w konfiguracji HA.
- Diagnozowanie i rozwiązywanie problemów na poziomie systemowym – od analizy logów i metryk, przez debugowanie zapytań i konfiguracji sieciowych, aż po optymalizację wydajności środowiska.
- Rozwijanie i utrzymywanie automatyzacji (głównie w Ansible).
- Współtworzenie platformy umożliwiającej zespołom developerskim stabilne i przewidywalne wdrażanie aplikacji.
- Dokumentowanie rozwiązań oraz udział w decyzjach architektonicznych opartych o dane z produkcji.
- Praca w sposób uporządkowany i świadomy, stawiając na małe, kontrolowane zmiany zamiast dużych migracji.
- Planowanie, wdrażanie i weryfikowanie każdej zmiany na podstawie danych, logów i metryk.
Inne informacje
Bardzo dobra znajomość języka polskiego w mowie i piśmie (praca i dokumentacja w języku polskim).
Rekrutacja ukryta
Pracodawca