Performing Data Engineering on Microsoft HD Insight

Cours 20775

Classe présentielle

  • Ref. 20775
  • 5 jours
  • Campus Genève / Lausanne
  • CHF 3,800.00

Sur-mesure

  • Ref. 20775
  • A définir
  • Campus ITTA / Site client
  • Sur demande
Introduction 
L'objectif principal du cours est de donner aux participants la capacité de planifier et de mettre en œuvre des flux de traitements automatisés sur de gros volumes de données sur HDInsight.
Objectifs 
A l'issue de cette formation, les participants seront à même de :
  • Déployer des clusters HDInsight
  • Autoriser les utilisateurs à accéder aux ressources
  • Charger des données dans HDInsight
  • Dépanner dans de HDInsight
  • Mettre en oeuvre des solutions de traitement par lots
  • Mettre en oeuvre des solutions de conception ETL (extraction, transformation et chargement) par lots sur de gros volumes de données avec Spark
  • Analyser les données avec Spark SQL
  • Analyser les données avec Hive et Phoenix
  • Décrire Stream Analytics
  • Implémenter Spark Streaming à l'aide de l'API DStream
  • Développer des solutions de traitement en temps réel sur de gros volumes de données avec Apache Storm
  • Construire des solutions qui utilisent Kafka et HBase
Connaissances préalables 
Avoir de suivre cette formation, les participants devraient avoir :
  • Une expérience de programmation en utilisant R, et familiarité avec les paquets R communs
  • Des connaissances des méthodes statistiques communes et des meilleures pratiques d'analyse de données
  • Des connaissances de base du système d'exploitation Microsoft Windows et de ses principales fonctionnalités
  • Des connaissances pratiques des bases de données relationnelles
Contenu du cours 

Module 1 : Premiers pas avec HDInsight

Ce module présente Hadoop, le paradigme MapReduce et HDInsight.

  • Leçon 1 : Qu'est-ce que le Big Data?
  • Leçon 2 : Introduction à Hadoop
  • Leçon 3 : Utilisation de la fonction MapReduce
  • Leçon 4 : Présentation de HDInsight

 

Module 2 : Déploiement des clusters HDInsight

Ce module fournit une vue d'ensemble des types de cluster Microsoft Azure HDInsight, en plus de la création et de la maintenance des clusters HDInsight. Le module montre également comment personnaliser des clusters à l'aide d'actions de script via Azure Portal, Azure PowerShell et l'interface de ligne de commande (CLI) Azure. Ce module inclut des laboratoires qui fournissent les étapes pour déployer et gérer les clusters.

  • Leçon 1 : Identification des types de cluster HDInsight
  • Leçon 2 : Gestion des clusters HDInsight à l'aide du portail Azure
  • Leçon 3 : Gestion des clusters HDInsight à l'aide d'Azure PowerShell

 

Module 3 : Autoriser les utilisateurs à accéder aux ressources

Ce module fournit une vue d'ensemble des clusters Microsoft HDInsight non liés à un domaine et appartenant à un domaine, en plus de la création et de la configuration de clusters HDInsight joints au domaine. Le module montre également comment gérer les clusters joints au domaine à l'aide de l'interface de gestion Ambari et de l'interface utilisateur d'administration Ranger. Ce module inclut les laboratoires qui fourniront les étapes pour créer et gérer des clusters joints au domaine.

  • Leçon 1 : Grappes jointes non liées à un domaine
  • Leçon 2 : Configuration des clusters HDInsight joints à un domaine
  • Leçon 3 : Gérer les clusters HDInsight joints au domaine

 

Module 4 : Chargement des données dans HDInsight

Ce module fournit une introduction au chargement des données dans le stockage Microsoft Azure Blob et dans le stockage Microsoft Azure Data Lake. À la fin de cette leçon, vous saurez comment utiliser plusieurs outils pour transférer des données vers un cluster HDInsight. Vous apprendrez également comment charger et transformer des données afin de réduire le temps d'exécution de vos requêtes.

  • Leçon 1 : Stockage des données pour le traitement HDInsight
  • Leçon 2 : Utilisation d'outils de chargement de données
  • Leçon 3 : Maximiser la valeur à partir des données stockées

 

Module 5 : Dépannage de HDInsight

Dans ce module, vous apprendrez à interpréter les journaux associés aux différents services du cluster Microsoft Azure HDInsight pour résoudre les problèmes que vous pourriez rencontrer avec ces services. Vous découvrirez également la suite de gestion des opérations (OMS) et ses fonctionnalités.

  • Leçon 1 : Analyse des journaux HDInsight
  • Leçon 2 : Journaux YARN
  • Leçon 3 : décharges de tas
  • Leçon 4 : Suite de gestion des opérations

 

Module 6 : Implémentation de solutions batch

Dans ce module, vous examinerez l'implémentation de solutions de traitement par lots dans Microsoft Azure HDInsight à l'aide de Hive and Pig. Vous aborderez également les approches d'opérationnalisation du pipeline de données disponibles pour les charges de travail Big Data sur une pile HDInsight.

  • Leçon 1 : Stockage Apache Hive
  • Leçon 2 : Requêtes de données HDInsight à l'aide de Hive and Pig
  • Leçon 3 : Rendre HDInsight opérationel

 

Module 7 : Concevoir des solutions ETL Batch pour Big Data avec Spark

Ce module fournit une vue d'ensemble d'Apache Spark, décrivant ses principales caractéristiques et caractéristiques clés. Avant de commencer, il est utile de comprendre l'architecture de base d'Apache Spark et les différents composants disponibles. Le module explique également comment concevoir des solutions d'extraction, de transformation, de chargement (ETL) par lots pour les données volumineuses avec Spark sur HDInsight. La dernière leçon comprend quelques directives pour améliorer les performances de Spark.

  • Leçon 1 : Qu'est-ce que Spark?
  • Leçon 2 : ETL avec Spark
  • Leçon 3 : Performances Spark

 

Module 8 : Analyser les données avec Spark SQL

Ce module décrit comment analyser des données en utilisant Spark SQL. Dans ce document, vous serez en mesure d'expliquer les différences entre RDD, ensembles de données et données, d'identifier les cas d'utilisation entre requêtes itératives et interactives, et de décrire les meilleures pratiques pour la mise en cache, le partitionnement et la persistance. Vous verrez également comment utiliser les blocs-notes Apache Zeppelin et Jupyter, effectuer une analyse exploratoire des données, puis soumettre les tâches Spark à distance à un cluster Spark.

  • Leçon 1 : Implémentation de requêtes interactives et itératives
  • Leçon 2 : Effectuer une analyse exploratoire des données

 

Module 9 : Analyser les données avec Hive et Phoenix

Dans ce module, vous apprendrez à exécuter des requêtes interactives à l'aide d'Interactive Hive (également appelé Hive LLAP ou Live Long and Process) et d'Apache Phoenix. Vous découvrirez également les différents aspects de l'exécution de requêtes interactives à l'aide d'Apache Phoenix avec HBase comme moteur de recherche sous-jacent.

  • Leçon 1 : Implémenter des requêtes interactives pour les mégadonnées avec une ruche interactive
  • Leçon 2 : Effectuer une analyse exploratoire des données en utilisant Hive
  • Leçon 3 : Effectuer un traitement interactif à l'aide d'Apache Phoenix

 

Module 10 : Stream Analytics

The Microsoft Azure Stream Analytics service has some built-in features and capabilities that make it as easy to use as a flexible stream processing service in the cloud. You will see that there are a number of advantages to using Stream Analytics for your streaming solutions, which you will discuss in more detail. You will also compare features of Stream Analytics to other services available within the Microsoft Azure HDInsight stack, such as Apache Storm. You will learn how to deploy a Stream Analytics job, connect it to the Microsoft Azure Event Hub to ingest real-time data, and execute a Stream Analytics query to gain low-latency insights. After that, you will learn how Stream Analytics jobs can be monitored when deployed and used in production settings.

  • Lesson 1 : Stream analytics
  • Lesson 2 : Process streaming data from stream analytics
  • Lesson 3 : Managing stream analytics jobs

 

Module 11 : Implémentation de solutions de streaming avec Kafka et HBase

Dans ce module, vous apprendrez à utiliser Kafka pour créer des solutions de streaming. Vous verrez également comment utiliser Kafka pour conserver les données dans HDFS en utilisant Apache HBase, puis interroger ces données.

  • Leçon 1 : Construire et déployer un cluster Kafka
  • Leçon 2 : Publication, consommation et traitement des données à l'aide du cluster Kafka
  • Leçon 3 : Utilisation de HBase pour stocker et interroger des données

 

Module 12 : Développer des solutions de traitement de données en temps réel avec Apache Storm

Ce module explique comment développer des solutions de traitement de données en temps réel avec Big Data avec Apache Storm.

  • Leçon 1 : Persister les données à long terme
  • Leçon 2 : Diffuser des données avec Storm
  • Leçon 3 : Créer des topologies Storm
  • Leçon 4:  Configurer Apache Storm

 

Module 13 : Créer des applications Spark Streaming

Ce module décrit Spark Streaming; explique comment utiliser des flux discrétisés (DStreams); et explique comment appliquer les concepts pour développer des applications Spark Streaming.

  • Leçon 1 : Travailler avec Spark Streaming
  • Leçon 2 : Création d'applications de diffusion en flux structuré Spark
  • Leçon 3 : Persistance et visualisation
Documentation 

Support de cours Microsoft officiel

Examen 

Ce cours prépare à l'examen 70-775 : Réaliser de l'ingénierie de données sur Microsoft HD Insight.

Cocher la case examen dans le tableau des dates de sessions pour l'ajouter à votre commande.

Certification 

Ce cours fait partie du cursus de certification suivant :

Lab / Exercices 

Lab 1 : Travailler avec HDInsight

  • Fournir un cluster HDInsight et exécuter des travaux MapReduce

Lab 2 : Gestion des clusters HDInsight avec le portail Azure

  • Créer un cluster HDInsight utilisant le stockage Data Lake Store
  • Personnaliser HDInsight en utilisant des actions de script
  • Supprimer un cluster HDInsight

Lab 3 : Autoriser les utilisateurs à accéder aux ressources

  • Préparer l'environnement de l'exercice
  • Gérer un cluster non lié à un domaine

Lab 4 : Chargement des données dans votre compte Azure

  • Charger des données pour une utilisation avec HDInsight

Lab 5 : Dépannage de HDInsight

  • Analyser les journaux HDInsight
  • Analyser les journaux YARN
  • Surveiller les ressources avec Operations Management Suite

Lab 6 : Implémenter des solutions batch

  • Déployer le cluster HDInsight et le stockage de données
  • Utiliser les transferts de données avec les clusters HDInsight
  • Gérer des données de cluster Query HDInsight

Lab 7 : Concevoir des solutions ETL Batch pour Big Data avec Spark

  • Créer un cluster HDInsight avec accès à Data Lake Store
  • Utiliser le cluster HDInsight Spark pour analyser les données dans Data Lake Store
  • Analyser les journaux de sites Web à l'aide d'une bibliothèque personnalisée avec le cluster Apache Spark sur HDInsight
  • Gérer les ressources pour le cluster Apache Spark sur Azure HDInsight

Lab 8 : Effectuer une analyse exploratoire des données en utilisant des requêtes itératives et interactives

  • Construire une application d'apprentissage automatique
  • Utiliser Zeppelin pour l'analyse interactive des données
  • Afficher et gérer les sessions Spark en utilisant LiveTime

Lab 9 : Analyser les données avec Hive et Phoenix

  • Mettre en œuvre des requêtes interactives pour de grands volumes de données avec Hive interactive
  • Effectuer une analyse exploratoire des données en utilisant Hive
  • Effectuer un traitement interactif en utilisant Apache Phoenix

Lab 10 : Mettre en œuvre Stream Analytics

  • Traiter les données en continu avec des analyses de flux
  • Gérer les tâches d'analyse de flux

Lab 11 : Implémentation de solutions de streaming avec Kafka et HBase

  • Créer un réseau virtuel et une passerelle
  • Créer un groupe de tempêtes pour Kafka
  • Créer un producteur Kafka
  • Créer une topologie de client de processeur de streaming
  • Créer un tableau de bord Power BI et un ensemble de données en continu
  • Créer un cluster HBase
  • Créer un processeur de streaming pour écrire dans HBase

Lab 12 : Développement de solutions de traitement de données en temps réel avec Big Data Apache Storm

  • Gérer des flux de données avec Storm
  • Créer des topologies Storm

Lab 13 : Création d'une application Spark Streaming

  • Installer le logiciel requis
  • Construire l'infrastructure Azure
  • Construire un pipeline Spark Streaming
Formation complémentaire 

Compléter votre cursus en suivant la formation complémentaire suivante :

Les formateurs dans ce domaine

Cette formation pourra être effectuée par une personne au profil équivalent.
Farid Baraka
Spécialiste Système et réseau
Michel Dutkiewicz
Système et réseau

Certification roadmap

Cette formation certifiante fait partie du cursus de certification
MCSA: Data Engineering with Azure.