Formation : Implémenter des solutions d’engineering données avec Azure Databricks (DP-750)

Ref. DP-750T00

Télécharger en PDF

Durée :

jours

Examen :

Niveau :

Intermédiaire

Financement :

Eligible

Home > Formations > Informatique > Cloud Computing > Implémenter des solutions d’engineering données avec Azure Databricks (DP-750)

Formation Implémenter des solutions d'engineering données avec Azure Databricks (DP-750)

Azure Databricks est devenu la plateforme de référence pour le data engineering à grande échelle dans Microsoft Azure. La formation DP-750 vous prépare à concevoir, implémenter et exploiter des pipelines de données production-grade en exploitant Apache Spark, Delta Lake et l’architecture Lakehouse.

Pendant quatre jours, vous travaillez sur les Unity Catalog, les Delta Live Tables, les pipelines ETL et ELT, l’orchestration Workflows, l’intégration avec Azure Data Lake Storage Gen2 et le partage sécurisé des données. La formation est animée à Genève et Lausanne par un formateur Microsoft Certified Trainer.

Profils des Participants

Objectifs

Concevoir une architecture Lakehouse Azure Databricks avec Unity Catalog pour la gouvernance des données
Développer des pipelines ETL et ELT en PySpark et SQL avec Delta Lake
Implementer des pipelines streaming et incrémentaux avec Delta Live Tables
Orchestrer les workflows complexes avec Databricks Workflows et intégrer avec Azure Data Factory
Optimiser les performances Spark : partitioning, caching, AQE, Photon, autoscaling
Sécuriser et gouverner les données avec Unity Catalog, row-level security et data lineage

Connaissances Préalables

Contenu du Cours

Module 1 : Explorer Azure Databricks

Commencez avec Azure Databricks
Identifier les charges de travail Azure Databricks
Comprendre les concepts clés
Gouvernance des données en utilisant Unity Catalog et Microsoft Purview

Module 2 : Comprendre l’architecture Azure Databricks

Comprendre l’architecture Azure Databricks
Comprendre le stockage managé du catalogue Unity
Comprendre le stockage externe
Comprendre le stockage par défaut

Module 3 : Comprendre les intégrations Azure Databricks

Comprendre l'intégration avec Microsoft Fabric
Comprendre l'intégration avec Power BI
Comprendre l’intégration à VS Code
Comprendre l’intégration à Power Platform
Comprendre l’intégration à Copilot Studio
Comprendre l’intégration à Microsoft Purview
Comprendre l’intégration à Microsoft Foundry

Module 4 : Sélectionner et configurer le calcul dans Azure Databricks

Choisir un type de calcul approprié
Configurer les performances de calcul
Configurer les fonctionnalités de calcul
Installer des bibliothèques pour le calcul
Configurer l’accès au calcul

Module 5 : Créer et organiser des objets dans le catalogue Unity

Appliquer des conventions d’affectation de noms
Créer un catalogue
Créer un schéma
Créer des tables et des vues
Créer des volumes
Implémenter des opérations DDL
Mettre en œuvre un catalogue externe
Configurer les instructions AI/BI Genie
Vérification des connaissances

Module 6 : Sécuriser les objets catalogue Unity

Comprendre le cycle de vie des requêtes
Implémenter des stratégies de contrôle d’accès
Comprendre le contrôle d’accès affiné
Implémenter le filtrage des lignes et le masquage des colonnes
Accéder aux secrets Azure Key Vault
Authentifier l'accès aux données à l'aide de principaux de service
Authentifier l’accès aux ressources avec des identités managées

Module 7 : Gouverner les objets Unity Catalog

Créer et conserver des définitions de table
Configurer ABAC avec des balises et des stratégies
Appliquer des stratégies de rétention des données
Configurer et gérer la traçabilité des données
Configurer la journalisation d’audit
Concevoir une stratégie de partage delta sécurisé

Module 8 : Concevoir et implémenter la modélisation des données avec Azure Databricks

Concevoir une logique d’ingestion et une configuration de source de données
Choisir un outil d’ingestion de données
Choisir un format de tableau de données
Concevoir et implémenter un schéma de partitionnement de données
Choisir un type de dimension à variation lente (SCD)
Implémenter un type de dimension à variation lente (SCD) 2
Concevoir et implémenter une table temporelle (historique) pour enregistrer les modifications au fil du temps
Choisir une granularité sur une colonne ou une table en fonction des exigences
Choisir des tables managées ou non managées
Concevoir et implémenter une stratégie de clustering
Vérification des connaissances

Module 9 : Ingérer des données dans le catalogue Unity

Ingérer des données avec Lakeflow Connect
Ingérer des données avec des notebooks
Ingérer des données avec des méthodes SQL
Ingérer des données avec le flux CDC
Ingérer des données avec Spark Structured Streaming
Ingérer des données avec le chargeur automatique
Ingérer des données avec les Pipelines Déclaratifs de Lakeflow Spark

Module 10 : Nettoyer, transformer et charger des données dans Unity Catalog

Données de profil
Choisir des types de données de colonne
Résoudre les doublons et les valeurs nulles
Transformer des données avec des filtres et des agrégations
Transformer des données avec des jointures et des opérateurs ensemblistes
Transformer des données avec la dénormalisation et les pivots
Charger des données avec fusion, insertion et ajout

Module 11 : Implémenter et gérer des contraintes de qualité des données avec Azure Databricks

Implémenter des vérifications de validation
Implémenter des vérifications de type de données
Détecter et gérer la dérive de schéma
Gérer la qualité des données avec des attentes de pipeline

Module 12 : Concevoir et implémenter des pipelines de données avec Azure Databricks

Ordre de conception des opérations pour un pipeline
Choisir entre un notebook et des pipelines Lakeflow
Conception de la logique de travail Lakeflow
Gestion des erreurs de conception dans les pipelines et les travaux
Créer un pipeline avec un bloc-notes
Créer un pipeline avec Lakeflow Spark Declarative Pipelines

Module 13 : Implémenter des Jobs Lakeflow avec Azure Databricks

Créer une configuration et un paramétrage de tâche
Configurer des déclencheurs de travail
Planifier un travail
Configurer des alertes de travail
Configurer les redémarrages automatiques

Module 14 : Implémenter des processus de cycle de vie de développement dans Azure Databricks

Appliquer les meilleures pratiques en matière de contrôle de version Git
Gérer les branches et les pull requests
Implémenter la stratégie de test
Configurer et empaqueter des bundles Automation déclaratifs
Déployer un bundle avec l'outil CLI de Databricks

Module 15 : Surveiller, dépanner et optimiser les charges de travail dans Azure Databricks

Surveiller et gérer la consommation du cluster
Résoudre les problèmes et réparer Lakeflow Jobs
Résoudre les problèmes des jobs Spark et des notebooks
Examiner la mise en cache, le déséquilibre, le spill et le shuffle
Implémenter le streaming des journaux avec Azure Log Analytics

Documentation

Accès à Microsoft Learn, la plateforme d’apprentissage en ligne Microsoft, offrant des ressources interactives et des contenus pédagogiques pour approfondir vos connaissances et développer vos compétences techniques.

Lab / Exercices

Ce cours vous donne un accès exclusif au laboratoire officiel Microsoft, vous permettant de mettre en pratique vos compétences dans un environnement professionnel.

Cours complémentaires

Financement Eligible

ITTA est partenaire d’un fonds de formation continue destiné aux travailleurs temporaires. Ce fonds peut subventionner cette formation, sous réserve que vous soyez assujetti(e) à la convention collective de travail (CCT) « Location de services » et que vous remplissiez certaines conditions, notamment avoir travaillé au moins 88 heures au cours des 12 derniers mois.

Informations Additionnelles

Azure Databricks : la plateforme data engineering au cœur du Lakehouse

Azure Databricks unifié data engineering, data science, machine learning et BI sur une seule plateforme. La formation Implement data engineering solutions using Azure Databricks (DP-750) se concentre sur le pilier data engineering : ingestion, transformation, qualité, gouvernance et exposition des données. Vous travaillez Apache Spark optimise par Databricks (Photon engine), Delta Lake pour la fiabilité ACID, et l’architecture Lakehouse qui combine les avantages du data lake et du data warehouse.

Unity Catalog : la gouvernance unifiée

Unity Catalog est la couche de gouvernance que vous configurez pendant le cours : un catalog metastore unique pour toutes les workspaces Databricks, les permissions granulares (catalog, schema, table, view, column), le data lineage automatique et le partage securise via Delta Sharing. La maîtrise d’Unity Catalog est devenue incontournable pour les architectures Databricks enterprise.

Delta Lake et l’architecture medallion

Delta Lake apporte les transactions ACID, le time travel, le schema évolution et la performance au-dessus des fichiers Parquet dans Azure Data Lake Storage. La formation couvre les techniques avancees : MERGE INTO pour les upserts, OPTIMIZE et Z-ordering pour la performance, VACUUM pour la retention, change data feed pour la propagation des modifications. L’architecture medallion (bronze / silver / gold) est presentee comme pattern de référence.

Delta Live Tables : pipelines declaratifs

Delta Live Tables (DLT) est un framework declaratif pour construire des pipelines de données fiables. Au lieu d’orchestrer des notebooks individuels, vous declarez les transformations et DLT gere les dependances, les retries, la qualité des données (expectations) et le monitoring. La formation montre comment basculer des pipelines existants vers DLT et combiner streaming et batch dans un même pipeline.

Performance Spark et optimisation

Optimiser Spark exige de comprendre ses internals : partitioning, shuffle, broadcast joins, AQE (Adaptive Query Exécution), Photon (le moteur natif Databricks écrit en C++). Vous apprenez a lire le Spark UI, identifier les goulots, ajuster les configurations cluster et choisir les bonnes API (DataFrame vs SQL, RDD a éviter).

Profil des participants et prérequis

La formation Implement data engineering solutions using Azure Databricks (DP-750) s’adresse aux data engineers, aux ingénieurs ETL et aux architectes data qui designeront des pipelines Databricks production. Pre-requis : connaissance de Python ou Scala, fondamentaux Azure (equivalent AZ-900), expérience SQL. Une connaissance prealable de Spark est un plus mais n’est pas requise.

FAQ Implement data engineering solutions using Azure Databricks (DP-750)

Quelle est la difference entre Azure Databricks et Microsoft Fabric ?

Microsoft Fabric intégré une expérience SaaS unifiée (Lakehouse, Data Warehouse, Real-Time Analytics, Power BI). Azure Databricks reste la plateforme leader pour les charges de travail Spark avancees, le ML a grande echelle et les architectures multi-cloud. La formation DP-750 traité Azure Databricks en profondeur ; DP-600 / DP-700 couvrent Microsoft Fabric.

Faut-il connaitre Apache Spark avant DP-750 ?

Non. La formation introduit Spark progressivement. Cependant, une expérience SQL et une connaissance d’au moins un langage de programmation (Python, Scala) sont indispensables.

Le cours DP-750 mene-t-il à une certification Microsoft ?

DP-750 est une Applied Skill Microsoft, sans examen formel associe. Pour une certification couvrant Azure Databricks, voir Azure Data Engineer Associate (DP-203) qui inclut Databricks dans son perimetre.

La formation couvre-t-elle les workloads streaming en temps réel ?

Oui, le streaming structure (Structured Streaming) et Delta Live Tables en mode continu sont traites avec des cas d’usage CDC (Change Data Capture) et intégration Event Hubs / Kafka.