Programmation R et intégration Big Data

Betribsiwwergräifend Formatioun

U wie riicht sech d'Formatioun?

Chefs de projets, Data Scientist, Developpeurs

Dauer

3,00 Dag(Deeg)

Sprooch(e) vun der Déngschtleeschtung

EN FR

Nächst Sessioun

Virkenntnisser

Connaissances de base en statistiques et en programmation

Ziler

Langage R: Programmation R pour Hadoop.

  • Connaître les principales fonctions statistiques de R
  • Utiliser des programmes R dans un environnement Hadoop en s'appuyant sur le système distribué hdfs et le stockage avec HBase
  • Intégrer R à un environnement Hadoop

Inhalt

Présentation R
  • Le projet R Programming
  • Calculs statistiques et génération de graphiques
  • Points forts de R Programming
  • Besoins du BigData
  • Positionnement R programming par rapport à Hadoop
Mise en oeuvre de R
  • Travaux pratiques: installation et tests sur une plate-forme CentOS
  • Utilisation de R en mode commande
  • Commandes de base
  • Syntaxe
  • Manipulations de nombres, vecteurs, tableaux, matrices, listes, …
Tableaux et matrices
  • Déclaration, dimensionnement, indexation
  • Opérations de base: produit de tableaux, transposition, produits de matrices
  • Matrices: équations linéaires, inversion, valeur propre, vecteur propre, déterminant, moindre carré, …
Liste et DataFrames
  • Définitions, cas d’utilisation
  • Attachement, détachement
  • Chargement d’un dataframe
  • La fonction scan
Statistiques
  • Distributions embarquées: uniforme, normale, poisson, exponentielle, …
  • Calculs statistiques. Modèles statistiques
  • Affichage en graphes, histogrammes
Import/export
  • Formats texte, csv, xml, binaire, largeur fixe, images (jpeg, png)
  • Encodage
  • Filtrage
  • Importation SQL
  • Importation depuis un socket réseau
  • Travaux pratiques: importation de données géodésiques et export au format Json
Intégration Hadoop
  • Association de la puissance du calcul distribué fourni par les outils hadoop et de la richesse des outils d’analyse statistique de R
  • Différents moyens d’intégration:sparkR, RHbase, RHDFS, RHadoop, rmr2 pour utiliser le système distribué hdfs depuis R, pour accéder à HBase depuis les programmes en R
  • Transformation d’un dataframe R en un dataframe Spark
  • Travaux pratiques avec Hadoop
Fonctions spécifiques
  • Définition de nouvelles fonctions
  • Appels
  • Passage d’argument
  • Construction d’une bibliothèque
  • Diffusion, installation avec R CMD INSTALL
Évolutions
  • Les acteurs: IBM avec BigInsights, Revolution R avec ScaleR

Certificat, Diplom

Une attestation de participation sera transmise aux participants

Kontakt fir dës Formatioun

Nathalie Thielemans / Nassera Aici

Dës Formatioune kéinten Iech interesséieren