Responsabilités quotidiennes :
- Expérience dans la mise en œuvre d'AWS Data Lake et de publication de données à l'aide de Databricks, Airflow et AWS S3
- Plus de 8 ans d'expérience en ingénierie de données Databricks pour créer des solutions Data Lake à l'aide des services AWS.
- Connaissance du cluster Databricks et de l'entrepôt SQL, Expérience dans la gestion des fichiers Delta et Parquet
- Expérience en Data Engineering et création de Data Pipeline sur Databricks
- Expérience dans l'outil de création de données (DBT) utilisant Python et SQL
- Expérience approfondie en SQL, PL/SQL, jointure complexe, fonction d'agrégation et DBT, Python, Data frames et Spark
- Expérience dans Airflow pour l'orchestration des tâches, la configuration des dépendances et la planification des tâches
- Connaissance du catalogue Databricks Unity et des modèles de consommation
-
Connaissance de GitHub et des pipelines CI/CD, AWS Infra comme le rôle IAM, les secrets et les compartiments S3
-
Une expérience dans les sciences de la vie est indispensable.
Doit avoir:
- Responsable de la définition de l'architecture technique et du paysage applicatif.
- Responsable de la création de scripts SQL et Python sur Databricks et DBT (outil Data Build) pour créer des pipelines de données afin de créer un Data Mart opérationnel.
- Responsable de la création de pipelines de données pour le traitement des données des fichiers Delta au format ODM pour la consommation de données en aval
- Responsable de l'identification des relations entre les ensembles de données, des critères de jointure et de leur mise en œuvre dans le code pour le développement du modèle ODM.
- Responsable de la création du modèle Delta Lake pour ODM et de la configuration du modèle de consommation à l'aide du catalogue Databricks Unity
- Responsable de la création de DAG Airflow pour l'orchestration des tâches et la planification des tâches de pipeline de données