Nowa
Data Engineer
145 - 160 PLN/ godz.B2B (netto)
SeniorFull-time·B2B
#341677·Dodano 5 dni temu·9
Źródło: theprotocol.itTech Stack / Keywords
PythonApache SparkPySparkScalaSQLAWSMicrosoft AzureGoogle Cloud PlatformAirflowPostgreSQLKafkaAmazon KinesisAmazon RedshiftMicrosoft Power BILinux
Firma i stanowisko
Zarządzamy globalnymi infrastrukturami IT dla wymagających klientów, dostarczając rozwiązania chmurowe o najwyższej dostępności, skalowalności i bezpieczeństwie. Realizujemy projekty w elastyczny sposób i z wykorzystaniem najnowocześniejszych technologii AWS.
Wymagania
- Minimum 5 lat doświadczenia w inżynierii danych, Big Data
- Bardzo dobra znajomość języka Python oraz podstaw backend developmentu.
- Praktyczne doświadczenie w pracy z Apache Spark (PySpark/Scala) oraz SQL.
- Znajomość przetwarzania danych w dużej skali i optymalizacji wydajności.
- Doświadczenie w pracy z chmurą (AWS/GCP/Azure), w tym S3 i pokrewnymi usługami.
- Doświadczenie w budowie i utrzymaniu pipeline’ów danych (ETL/ELT).
- Znajomość narzędzi takich jak Airflow oraz CI/CD (DevOps).
- Umiejętność projektowania skalowalnych modeli danych oraz pracy z bazami relacyjnymi (np. PostgreSQL), time-stream oraz obiektowymi storage.
- Mile widziane doświadczenie w konfiguracji, zasilaniu i optymalizacji baz wektorowych.
- Doświadczenie w przetwarzaniu danych strumieniowych (z np. Amazon Kinesis, Kafka)
- Doświadczenie w zapewnianiu jakości danych, testowaniu, monitoringu i utrzymaniu niezawodnych systemów produkcyjnych.
- Bardzo dobre umiejętności analityczne, komunikacyjne i organizacyjne.
- Biegła znajomość języka angielskiego i polskiego.
Nice to have:
- Praktyczna znajomość narzędzi analitycznych, w szczególności MS Power BI oraz Amazon Redshift.
- Doświadczenie w konfiguracji, zasilaniu i optymalizacji baz wektorowych.
Obowiązki
- Projektowanie, budowa i utrzymanie skalowalnych pipeline’ów danych (ETL/ELT) od pozyskania po przetwarzanie i udostępnienie danych.
- Rozwój i optymalizacja systemów przetwarzania danych batch i real-time (w tym architektury oparte o zdarzenia i streaming).
- Tworzenie i utrzymywanie procesów integracji danych z wielu źródeł - strukturalnych, półstrukturalnych i nieustrukturalnych.
- Praca z technologiami Big Data i chmurowymi (np. AWS/GCP/Azure, Spark, Kafka, AWS Glue, Athena, Amazon Kinesis).
- Wdrażanie i rozwój orkiestracji workflowów danych (np. Airflow, Prefect, dbt).
- Zapewnienie jakości danych poprzez walidację, czyszczenie, monitoring i obsługę błędów w pipeline’ach.
- Optymalizacja wydajności, niezawodności i skalowalności systemów przetwarzania danych.
- Udział w procesach DevOps dla data pipeline’ów (CI/CD, automatyzacja wdrożeń, obserwowalność systemów).
Oferta
- Współpracę opartą w pełni na modelu B2B
- Swobodę w sposobie realizacji usług
- Wynagrodzenie za świadczone usługi: 145-160 PLN netto + VAT
- Realizację ciekawych projektów
Hostersi
4 aktywne oferty