IBM InfoSphere Advanced DataStage - Parallel Framework v11.5

Cours KM404G

Classe présentielle

  • Ref. KM404G
  • 3 jours
  • Campus Genève / Lausanne
  • CHF 3'150.00

Classe virtuelle

  • Ref. KM404G
  • 3 jours
  • Partout
  • CHF 3'150.00

Sur-mesure

  • Ref. KM404G
  • A définir
  • Campus ITTA / Site client
  • Sur demande
Introduction 

Ce cours est conçu pour présenter des techniques avancées de développement de travaux parallèles dans DataStage v11.5. Dans ce cours, vous développerez une meilleure compréhension de l'architecture DataStage, notamment une meilleure compréhension des environnements d'exécution et de développement DataStage. Cela vous permettra de concevoir des travaux parallèles robustes, moins sujets aux erreurs, réutilisables et optimisés pour de meilleures performances.

Objectifs 
  • Overview de l'architecture du cadre parallèle
  • Savoir compiler et exécuter des travaux
  • Savoir partitionner et collecter des données
  • Savoir trier des données
  • Mettre en mémoire tampon des travaux parallèles
  • Analyser les types de données du cadre parallèle
  • Connaitre les composants réutilisables
  • Réaliser une optimisation équilibrée
Connaissances préalables 
Contenu du cours 

Module 1 : Introduction à l'architecture du cadre parallèle

  • Leçon 1 : Décrire l'architecture de traitement parallèle
  • Leçon 2 : Décrire le parallélisme du pipeline et de la partition
  • Leçon 3 : Décrire le rôle du fichier de configuration
  • Leçon 4 : Concevoir un travail qui crée des données de test robustes


Module 2 : Compilation et exécution des travaux

  • Leçon 1 : Décrire les principales parties du fichier de configuration
  • Leçon 2 : Décrire le processus de compilation et la SST générés par le processus de compilation
  • Leçon 3 : Décrire le rôle et les principales parties du score
  • Leçon 4 : Décrire le processus d'exécution du travail


Module 3 : Partitionnement et collecte de données

  • Leçon 1 : Comprendre le fonctionnement du partitionnement dans le framework
  • Leçon 2 : Affichage des partitionneurs dans le score
  • Leçon 3 : Sélection des algorithmes de partitionnement
  • Leçon 4 : Génération de séquences de nombres (clés de substitution) dans un environnement parallèle partitionné


Module 4 : Tri des données

  • Leçon 1 : Trier les données dans le cadre parallèle
  • Leçon 2 : rechercher des tris insérés dans le score
  • Leçon 3 : Réduire le nombre de tris insérés
  • Leçon 4 : Optimiser les travaux Fork-Join
  • Leçon 5 : Utiliser les étapes de tri pour déterminer la dernière ligne d'un groupe
  • Leçon 6 : Décrire la logique de la clé de tri et de la partition du partitionneur dans le cadre parallèle


Module 5 : Mise en mémoire tampon dans des travaux parallèles

  • Leçon 1 : Décrire comment fonctionne la mise en mémoire tampon dans les travaux parallèles
  • Leçon 2 : Réglage des tampons dans des travaux parallèles
  • Leçon 3 : Éviter les conflits de tampons


Module 6 : Types de données du cadre parallèle

  • Leçon 1 : Décrire des ensembles de données virtuels
  • Leçon 2 : Décrire les schémas
  • Leçon 3 : Décrire les mappages de type de données et les conversions
  • Leçon 4 : Décrire comment les données externes sont traitées
  • Leçon 5 : Gérer les valeurs nulles
  • Leçon 6 : Travailler avec des données complexes


Module 7 : Composants réutilisables

  • Leçon 1 : Créer un fichier de schéma
  • Leçon 2 : Lire un fichier séquentiel à l'aide d'un schéma
  • Leçon 3 : Décrire la propagation des colonnes d'exécution (RCP)
  • Leçon 4 : Activer et désactiver le RCP
  • Leçon 5 : créer et utiliser des conteneurs partagés
  • Module 8: Optimisation équilibrée
  • Leçon 1 : Activer la fonctionnalité d’optimisation équilibrée dans Designer
  • Leçon 2 : Décrire le flux de travail d'optimisation équilibrée
  • Leçon 3 : Répertorier les différentes options d’optimisation équilibrée.
  • Leçon 4 : Traitement par étapes poussées vers une source de données
  • Leçon 5 : Traitement par étapes poussées vers une cible de données
  • Leçon 6 : Optimiser un travail accédant au système de fichiers Hadoop HDFS
  • Leçon 7 : Comprendre les limites des optimisations équilibrées
Documentation 
  • Support de cours officiel IBM
Lab / Exercices 
  • Lab et exercices officiels IBM