- Déployer des clusters HDInsight
- Autoriser les utilisateurs à accéder aux ressources
- Charger des données dans HDInsight
- Dépanner dans de HDInsight
- Mettre en oeuvre des solutions de traitement par lots
- Mettre en oeuvre des solutions de conception ETL (extraction, transformation et chargement) par lots sur de gros volumes de données avec Spark
- Analyser les données avec Spark SQL
- Analyser les données avec Hive et Phoenix
- Décrire Stream Analytics
- Implémenter Spark Streaming à l'aide de l'API DStream
- Développer des solutions de traitement en temps réel sur de gros volumes de données avec Apache Storm
- Construire des solutions qui utilisent Kafka et HBase
- Une expérience de programmation en utilisant R, et familiarité avec les paquets R communs
- Des connaissances des méthodes statistiques communes et des meilleures pratiques d'analyse de données
- Des connaissances de base du système d'exploitation Microsoft Windows et de ses principales fonctionnalités
- Des connaissances pratiques des bases de données relationnelles
Module 1 : Premiers pas avec HDInsight
Ce module présente Hadoop, le paradigme MapReduce et HDInsight.
- Leçon 1 : Qu'est-ce que le Big Data?
- Leçon 2 : Introduction à Hadoop
- Leçon 3 : Utilisation de la fonction MapReduce
- Leçon 4 : Présentation de HDInsight
Module 2 : Déploiement des clusters HDInsight
- Leçon 1 : Identification des types de cluster HDInsight
- Leçon 2 : Gestion des clusters HDInsight à l'aide du portail Azure
- Leçon 3 : Gestion des clusters HDInsight à l'aide d'Azure PowerShell
Module 3 : Autoriser les utilisateurs à accéder aux ressources
- Leçon 1 : Grappes jointes non liées à un domaine
- Leçon 2 : Configuration des clusters HDInsight joints à un domaine
- Leçon 3 : Gérer les clusters HDInsight joints au domaine
Module 4 : Chargement des données dans HDInsight
- Leçon 1 : Stockage des données pour le traitement HDInsight
- Leçon 2 : Utilisation d'outils de chargement de données
- Leçon 3 : Maximiser la valeur à partir des données stockées
Module 5 : Dépannage de HDInsight
- Leçon 1 : Analyse des journaux HDInsight
- Leçon 2 : Journaux YARN
- Leçon 3 : décharges de tas
- Leçon 4 : Suite de gestion des opérations
Module 6 : Implémentation de solutions batch
- Leçon 1 : Stockage Apache Hive
- Leçon 2 : Requêtes de données HDInsight à l'aide de Hive and Pig
- Leçon 3 : Rendre HDInsight opérationel
Module 7 : Concevoir des solutions ETL Batch pour Big Data avec Spark
Ce module fournit une vue d'ensemble d'Apache Spark, décrivant ses principales caractéristiques et caractéristiques clés. Avant de commencer, il est utile de comprendre l'architecture de base d'Apache Spark et les différents composants disponibles. Le module explique également comment concevoir des solutions d'extraction, de transformation, de chargement (ETL) par lots pour les données volumineuses avec Spark sur HDInsight. La dernière leçon comprend quelques directives pour améliorer les performances de Spark.
- Leçon 1 : Qu'est-ce que Spark?
- Leçon 2 : ETL avec Spark
- Leçon 3 : Performances Spark
Module 8 : Analyser les données avec Spark SQL
- Leçon 1 : Implémentation de requêtes interactives et itératives
- Leçon 2 : Effectuer une analyse exploratoire des données
Module 9 : Analyser les données avec Hive et Phoenix
- Leçon 1 : Implémenter des requêtes interactives pour les mégadonnées avec une ruche interactive
- Leçon 2 : Effectuer une analyse exploratoire des données en utilisant Hive
- Leçon 3 : Effectuer un traitement interactif à l'aide d'Apache Phoenix
Module 10 : Stream Analytics
- Lesson 1 : Stream analytics
- Lesson 2 : Process streaming data from stream analytics
- Lesson 3 : Managing stream analytics jobs
Module 11 : Implémentation de solutions de streaming avec Kafka et HBase
- Leçon 1 : Construire et déployer un cluster Kafka
- Leçon 2 : Publication, consommation et traitement des données à l'aide du cluster Kafka
- Leçon 3 : Utilisation de HBase pour stocker et interroger des données
Module 12 : Développer des solutions de traitement de données en temps réel avec Apache Storm
Ce module explique comment développer des solutions de traitement de données en temps réel avec Big Data avec Apache Storm.
- Leçon 1 : Persister les données à long terme
- Leçon 2 : Diffuser des données avec Storm
- Leçon 3 : Créer des topologies Storm
- Leçon 4: Configurer Apache Storm
Module 13 : Créer des applications Spark Streaming
- Leçon 1 : Travailler avec Spark Streaming
- Leçon 2 : Création d'applications de diffusion en flux structuré Spark
- Leçon 3 : Persistance et visualisation
Support de cours Microsoft officiel
Cocher la case examen dans le tableau des dates de sessions pour l'ajouter à votre commande.
Ce cours fait partie des cursus de certification suivant :
Lab 1 : Travailler avec HDInsight
- Fournir un cluster HDInsight et exécuter des travaux MapReduce
Lab 2 : Gestion des clusters HDInsight avec le portail Azure
- Créer un cluster HDInsight utilisant le stockage Data Lake Store
- Personnaliser HDInsight en utilisant des actions de script
- Supprimer un cluster HDInsight
Lab 3 : Autoriser les utilisateurs à accéder aux ressources
- Préparer l'environnement de l'exercice
- Gérer un cluster non lié à un domaine
Lab 4 : Chargement des données dans votre compte Azure
- Charger des données pour une utilisation avec HDInsight
Lab 5 : Dépannage de HDInsight
- Analyser les journaux HDInsight
- Analyser les journaux YARN
- Surveiller les ressources avec Operations Management Suite
Lab 6 : Implémenter des solutions batch
- Déployer le cluster HDInsight et le stockage de données
- Utiliser les transferts de données avec les clusters HDInsight
- Gérer des données de cluster Query HDInsight
Lab 7 : Concevoir des solutions ETL Batch pour Big Data avec Spark
- Créer un cluster HDInsight avec accès à Data Lake Store
- Utiliser le cluster HDInsight Spark pour analyser les données dans Data Lake Store
- Analyser les journaux de sites Web à l'aide d'une bibliothèque personnalisée avec le cluster Apache Spark sur HDInsight
- Gérer les ressources pour le cluster Apache Spark sur Azure HDInsight
Lab 8 : Effectuer une analyse exploratoire des données en utilisant des requêtes itératives et interactives
- Construire une application d'apprentissage automatique
- Utiliser Zeppelin pour l'analyse interactive des données
- Afficher et gérer les sessions Spark en utilisant LiveTime
Lab 9 : Analyser les données avec Hive et Phoenix
- Mettre en œuvre des requêtes interactives pour de grands volumes de données avec Hive interactive
- Effectuer une analyse exploratoire des données en utilisant Hive
- Effectuer un traitement interactif en utilisant Apache Phoenix
Lab 10 : Mettre en œuvre Stream Analytics
- Traiter les données en continu avec des analyses de flux
- Gérer les tâches d'analyse de flux
Lab 11 : Implémentation de solutions de streaming avec Kafka et HBase
- Créer un réseau virtuel et une passerelle
- Créer un groupe de tempêtes pour Kafka
- Créer un producteur Kafka
- Créer une topologie de client de processeur de streaming
- Créer un tableau de bord Power BI et un ensemble de données en continu
- Créer un cluster HBase
- Créer un processeur de streaming pour écrire dans HBase
Lab 12 : Développement de solutions de traitement de données en temps réel avec Big Data Apache Storm
- Gérer des flux de données avec Storm
- Créer des topologies Storm
Lab 13 : Création d'une application Spark Streaming
- Installer le logiciel requis
- Construire l'infrastructure Azure
- Construire un pipeline Spark Streaming
Compléter votre cursus en suivant les formations complémentaires suivantes :