☀️ C'est l'été chez ITTA ! Profitez de 10% de réduction jusqu'au 31 juillet sur une sélection de formations 🌴

Formation : Implémenter des solutions d’engineering données avec Azure Databricks (DP-750)

Ref. DP-750T00
Durée :
4
 jours
Examen :
Niveau :
Intermédiaire
Financement :
Eligible

Formation Implémenter des solutions d'engineering données avec Azure Databricks (DP-750)

Azure Databricks est devenu la plateforme de référence pour le data engineering à grande échelle dans Microsoft Azure. La formation DP-750 vous prépare à concevoir, implémenter et exploiter des pipelines de données production-grade en exploitant Apache Spark, Delta Lake et l’architecture Lakehouse.

Pendant quatre jours, vous travaillez sur les Unity Catalog, les Delta Live Tables, les pipelines ETL et ELT, l’orchestration Workflows, l’intégration avec Azure Data Lake Storage Gen2 et le partage sécurisé des données. La formation est animée à Genève et Lausanne par un formateur Microsoft Certified Trainer.

Profils des Participants

Objectifs

  • Concevoir une architecture Lakehouse Azure Databricks avec Unity Catalog pour la gouvernance des données
  • Développer des pipelines ETL et ELT en PySpark et SQL avec Delta Lake
  • Implementer des pipelines streaming et incrémentaux avec Delta Live Tables
  • Orchestrer les workflows complexes avec Databricks Workflows et intégrer avec Azure Data Factory
  • Optimiser les performances Spark : partitioning, caching, AQE, Photon, autoscaling
  • Sécuriser et gouverner les données avec Unity Catalog, row-level security et data lineage

Connaissances Préalables

Contenu du Cours

Module 1 : Explorer Azure Databricks

  • Commencez avec Azure Databricks
  • Identifier les charges de travail Azure Databricks
  • Comprendre les concepts clés
  • Gouvernance des données en utilisant Unity Catalog et Microsoft Purview

Module 2 : Comprendre l’architecture Azure Databricks

  • Comprendre l’architecture Azure Databricks
  • Comprendre le stockage managé du catalogue Unity
  • Comprendre le stockage externe
  • Comprendre le stockage par défaut

Module 3 : Comprendre les intégrations Azure Databricks

  • Comprendre l'intégration avec Microsoft Fabric
  • Comprendre l'intégration avec Power BI
  • Comprendre l’intégration à VS Code
  • Comprendre l’intégration à Power Platform
  • Comprendre l’intégration à Copilot Studio
  • Comprendre l’intégration à Microsoft Purview
  • Comprendre l’intégration à Microsoft Foundry

Module 4 : Sélectionner et configurer le calcul dans Azure Databricks

  • Choisir un type de calcul approprié
  • Configurer les performances de calcul
  • Configurer les fonctionnalités de calcul
  • Installer des bibliothèques pour le calcul
  • Configurer l’accès au calcul

Module 5 : Créer et organiser des objets dans le catalogue Unity

  • Appliquer des conventions d’affectation de noms
  • Créer un catalogue
  • Créer un schéma
  • Créer des tables et des vues
  • Créer des volumes
  • Implémenter des opérations DDL
  • Mettre en œuvre un catalogue externe
  • Configurer les instructions AI/BI Genie
  • Vérification des connaissances

Module 6 : Sécuriser les objets catalogue Unity

  • Comprendre le cycle de vie des requêtes
  • Implémenter des stratégies de contrôle d’accès
  • Comprendre le contrôle d’accès affiné
  • Implémenter le filtrage des lignes et le masquage des colonnes
  • Accéder aux secrets Azure Key Vault
  • Authentifier l'accès aux données à l'aide de principaux de service
  • Authentifier l’accès aux ressources avec des identités managées

Module 7 : Gouverner les objets Unity Catalog

  • Créer et conserver des définitions de table
  • Configurer ABAC avec des balises et des stratégies
  • Appliquer des stratégies de rétention des données
  • Configurer et gérer la traçabilité des données
  • Configurer la journalisation d’audit
  • Concevoir une stratégie de partage delta sécurisé

Module 8 : Concevoir et implémenter la modélisation des données avec Azure Databricks

  • Concevoir une logique d’ingestion et une configuration de source de données
  • Choisir un outil d’ingestion de données
  • Choisir un format de tableau de données
  • Concevoir et implémenter un schéma de partitionnement de données
  • Choisir un type de dimension à variation lente (SCD)
  • Implémenter un type de dimension à variation lente (SCD) 2
  • Concevoir et implémenter une table temporelle (historique) pour enregistrer les modifications au fil du temps
  • Choisir une granularité sur une colonne ou une table en fonction des exigences
  • Choisir des tables managées ou non managées
  • Concevoir et implémenter une stratégie de clustering
  • Vérification des connaissances

Module 9 : Ingérer des données dans le catalogue Unity

  • Ingérer des données avec Lakeflow Connect
  • Ingérer des données avec des notebooks
  • Ingérer des données avec des méthodes SQL
  • Ingérer des données avec le flux CDC
  • Ingérer des données avec Spark Structured Streaming
  • Ingérer des données avec le chargeur automatique
  • Ingérer des données avec les Pipelines Déclaratifs de Lakeflow Spark

Module 10 : Nettoyer, transformer et charger des données dans Unity Catalog

  • Données de profil
  • Choisir des types de données de colonne
  • Résoudre les doublons et les valeurs nulles
  • Transformer des données avec des filtres et des agrégations
  • Transformer des données avec des jointures et des opérateurs ensemblistes
  • Transformer des données avec la dénormalisation et les pivots
  • Charger des données avec fusion, insertion et ajout

Module 11 : Implémenter et gérer des contraintes de qualité des données avec Azure Databricks

  • Implémenter des vérifications de validation
  • Implémenter des vérifications de type de données
  • Détecter et gérer la dérive de schéma
  • Gérer la qualité des données avec des attentes de pipeline

Module 12 : Concevoir et implémenter des pipelines de données avec Azure Databricks

  • Ordre de conception des opérations pour un pipeline
  • Choisir entre un notebook et des pipelines Lakeflow
  • Conception de la logique de travail Lakeflow
  • Gestion des erreurs de conception dans les pipelines et les travaux
  • Créer un pipeline avec un bloc-notes
  • Créer un pipeline avec Lakeflow Spark Declarative Pipelines

Module 13 : Implémenter des Jobs Lakeflow avec Azure Databricks

  • Créer une configuration et un paramétrage de tâche
  • Configurer des déclencheurs de travail
  • Planifier un travail
  • Configurer des alertes de travail
  • Configurer les redémarrages automatiques

Module 14 : Implémenter des processus de cycle de vie de développement dans Azure Databricks

  • Appliquer les meilleures pratiques en matière de contrôle de version Git
  • Gérer les branches et les pull requests
  • Implémenter la stratégie de test
  • Configurer et empaqueter des bundles Automation déclaratifs
  • Déployer un bundle avec l'outil CLI de Databricks

Module 15 : Surveiller, dépanner et optimiser les charges de travail dans Azure Databricks

  • Surveiller et gérer la consommation du cluster
  • Résoudre les problèmes et réparer Lakeflow Jobs
  • Résoudre les problèmes des jobs Spark et des notebooks
  • Examiner la mise en cache, le déséquilibre, le spill et le shuffle
  • Implémenter le streaming des journaux avec Azure Log Analytics

Documentation

  • Accès à Microsoft Learn, la plateforme d’apprentissage en ligne Microsoft, offrant des ressources interactives et des contenus pédagogiques pour approfondir vos connaissances et développer vos compétences techniques.

Lab / Exercices

  • Ce cours vous donne un accès exclusif au laboratoire officiel Microsoft, vous permettant de mettre en pratique vos compétences dans un environnement professionnel.

Cours complémentaires

Financement Eligible

ITTA est partenaire d’un fonds de formation continue destiné aux travailleurs temporaires. Ce fonds peut subventionner cette formation, sous réserve que vous soyez assujetti(e) à la convention collective de travail (CCT) « Location de services » et que vous remplissiez certaines conditions, notamment avoir travaillé au moins 88 heures au cours des 12 derniers mois.

Informations Additionnelles

Azure Databricks : la plateforme data engineering au cœur du Lakehouse

Azure Databricks unifié data engineering, data science, machine learning et BI sur une seule plateforme. La formation Implement data engineering solutions using Azure Databricks (DP-750) se concentre sur le pilier data engineering : ingestion, transformation, qualité, gouvernance et exposition des données. Vous travaillez Apache Spark optimise par Databricks (Photon engine), Delta Lake pour la fiabilité ACID, et l’architecture Lakehouse qui combine les avantages du data lake et du data warehouse.

Unity Catalog : la gouvernance unifiée

Unity Catalog est la couche de gouvernance que vous configurez pendant le cours : un catalog metastore unique pour toutes les workspaces Databricks, les permissions granulares (catalog, schema, table, view, column), le data lineage automatique et le partage securise via Delta Sharing. La maîtrise d’Unity Catalog est devenue incontournable pour les architectures Databricks enterprise.

Delta Lake et l’architecture medallion

Delta Lake apporte les transactions ACID, le time travel, le schema évolution et la performance au-dessus des fichiers Parquet dans Azure Data Lake Storage. La formation couvre les techniques avancees : MERGE INTO pour les upserts, OPTIMIZE et Z-ordering pour la performance, VACUUM pour la retention, change data feed pour la propagation des modifications. L’architecture medallion (bronze / silver / gold) est presentee comme pattern de référence.

Delta Live Tables : pipelines declaratifs

Delta Live Tables (DLT) est un framework declaratif pour construire des pipelines de données fiables. Au lieu d’orchestrer des notebooks individuels, vous declarez les transformations et DLT gere les dependances, les retries, la qualité des données (expectations) et le monitoring. La formation montre comment basculer des pipelines existants vers DLT et combiner streaming et batch dans un même pipeline.

Performance Spark et optimisation

Optimiser Spark exige de comprendre ses internals : partitioning, shuffle, broadcast joins, AQE (Adaptive Query Exécution), Photon (le moteur natif Databricks écrit en C++). Vous apprenez a lire le Spark UI, identifier les goulots, ajuster les configurations cluster et choisir les bonnes API (DataFrame vs SQL, RDD a éviter).

Profil des participants et prérequis

La formation Implement data engineering solutions using Azure Databricks (DP-750) s’adresse aux data engineers, aux ingénieurs ETL et aux architectes data qui designeront des pipelines Databricks production. Pre-requis : connaissance de Python ou Scala, fondamentaux Azure (equivalent AZ-900), expérience SQL. Une connaissance prealable de Spark est un plus mais n’est pas requise.

FAQ Implement data engineering solutions using Azure Databricks (DP-750)

Quelle est la difference entre Azure Databricks et Microsoft Fabric ?

Microsoft Fabric intégré une expérience SaaS unifiée (Lakehouse, Data Warehouse, Real-Time Analytics, Power BI). Azure Databricks reste la plateforme leader pour les charges de travail Spark avancees, le ML a grande echelle et les architectures multi-cloud. La formation DP-750 traité Azure Databricks en profondeur ; DP-600 / DP-700 couvrent Microsoft Fabric.

Faut-il connaitre Apache Spark avant DP-750 ?

Non. La formation introduit Spark progressivement. Cependant, une expérience SQL et une connaissance d’au moins un langage de programmation (Python, Scala) sont indispensables.

Le cours DP-750 mene-t-il à une certification Microsoft ?

DP-750 est une Applied Skill Microsoft, sans examen formel associe. Pour une certification couvrant Azure Databricks, voir Azure Data Engineer Associate (DP-203) qui inclut Databricks dans son perimetre.

La formation couvre-t-elle les workloads streaming en temps réel ?

Oui, le streaming structure (Structured Streaming) et Delta Live Tables en mode continu sont traites avec des cas d’usage CDC (Change Data Capture) et intégration Event Hubs / Kafka.

Prix de l'inscription
CHF 3'000.-
Inclus dans ce cours
  • Formation dispensée par un formateur certifié
  • 180 jours d’accès aux labs Officiels Microsoft
  • Documentation Officielle au format digital
  • Badge de réussite Officiel Microsoft
Mois actuel

mar16Juin(Juin 16)09:00ven19(Juin 19)17:00VirtuelVirtuel Etiquettes de sessionDP-750T00

mar16Juin(Juin 16)09:00ven19(Juin 19)17:00Genève, Route des Jeunes 35, 1227 Genève Etiquettes de sessionDP-750T00

mar21juil(juil 21)09:00ven24(juil 24)17:00VirtuelVirtuel Etiquettes de sessionDP-750T00

mar21juil(juil 21)09:00ven24(juil 24)17:00Lausanne, Av. Mon-Repos 24, 1005 Lausanne Etiquettes de sessionDP-750T00

mar25Aoû(Aoû 25)09:00ven28(Aoû 28)17:00VirtuelVirtuel Etiquettes de sessionDP-750T00

mar25Aoû(Aoû 25)09:00ven28(Aoû 28)17:00Genève, Route des Jeunes 35, 1227 Genève Etiquettes de sessionDP-750T00

mar29Sep(Sep 29)09:00ven02Oct(Oct 2)17:00VirtuelVirtuel Etiquettes de sessionDP-750T00

mar29Sep(Sep 29)09:00ven02Oct(Oct 2)17:00Lausanne, Av. Mon-Repos 24, 1005 Lausanne Etiquettes de sessionDP-750T00

mar03Nov(Nov 3)09:00ven06(Nov 6)17:00VirtuelVirtuel Etiquettes de sessionDP-750T00

mar03Nov(Nov 3)09:00ven06(Nov 6)17:00Genève, Route des Jeunes 35, 1227 Genève Etiquettes de sessionDP-750T00

mar08Déc(Déc 8)09:00ven11(Déc 11)17:00VirtuelVirtuel Etiquettes de sessionDP-750T00

mar08Déc(Déc 8)09:00ven11(Déc 11)17:00Lausanne, Av. Mon-Repos 24, 1005 Lausanne Etiquettes de sessionDP-750T00

mar12Jan(Jan 12)09:00ven15(Jan 15)17:00VirtuelVirtuel Etiquettes de sessionDP-750T00

mar12Jan(Jan 12)09:00ven15(Jan 15)17:00Genève, Route des Jeunes 35, 1227 Genève Etiquettes de sessionDP-750T00

mar16Fév(Fév 16)09:00ven19(Fév 19)17:00VirtuelVirtuel Etiquettes de sessionDP-750T00

mar16Fév(Fév 16)09:00ven19(Fév 19)17:00Lausanne, Av. Mon-Repos 24, 1005 Lausanne Etiquettes de sessionDP-750T00

Contact

ITTA
Route des jeunes 35
1227 Carouge, Suisse

Horaires d’ouverture

Du lundi au vendredi

de 8h30 à 18h00

Tél. 058 307 73 00

Contactez-Nous

ITTA
Route des jeunes 35
1227 Carouge, Suisse

Faire une demande

Horaires d’ouverture

Du lundi au vendredi

de 8h30 à 18h00

Tél. 058 307 73 00

Contactez-Nous

ITTA
Route des jeunes 35
1227 Carouge, Suisse

Faire une demande