Programmation R et intégration Big Data

Formation inter-entreprise

À qui s'adresse la formation?

Chefs de projets, Data Scientist, Developpeurs

Durée

3,00 jour(s)

Langues(s) de prestation

EN FR

Prochaine session

Prérequis

Connaissances de base en statistiques et en programmation

Objectifs

Langage R: Programmation R pour Hadoop.

  • Connaître les principales fonctions statistiques de R
  • Utiliser des programmes R dans un environnement Hadoop en s'appuyant sur le système distribué hdfs et le stockage avec HBase
  • Intégrer R à un environnement Hadoop

Contenu

Présentation R
  • Le projet R Programming
  • Calculs statistiques et génération de graphiques
  • Points forts de R Programming
  • Besoins du BigData
  • Positionnement R programming par rapport à Hadoop
Mise en oeuvre de R
  • Travaux pratiques: installation et tests sur une plate-forme CentOS
  • Utilisation de R en mode commande
  • Commandes de base
  • Syntaxe
  • Manipulations de nombres, vecteurs, tableaux, matrices, listes, …
Tableaux et matrices
  • Déclaration, dimensionnement, indexation
  • Opérations de base: produit de tableaux, transposition, produits de matrices
  • Matrices: équations linéaires, inversion, valeur propre, vecteur propre, déterminant, moindre carré, …
Liste et DataFrames
  • Définitions, cas d’utilisation
  • Attachement, détachement
  • Chargement d’un dataframe
  • La fonction scan
Statistiques
  • Distributions embarquées: uniforme, normale, poisson, exponentielle, …
  • Calculs statistiques. Modèles statistiques
  • Affichage en graphes, histogrammes
Import/export
  • Formats texte, csv, xml, binaire, largeur fixe, images (jpeg, png)
  • Encodage
  • Filtrage
  • Importation SQL
  • Importation depuis un socket réseau
  • Travaux pratiques: importation de données géodésiques et export au format Json
Intégration Hadoop
  • Association de la puissance du calcul distribué fourni par les outils hadoop et de la richesse des outils d’analyse statistique de R
  • Différents moyens d’intégration:sparkR, RHbase, RHDFS, RHadoop, rmr2 pour utiliser le système distribué hdfs depuis R, pour accéder à HBase depuis les programmes en R
  • Transformation d’un dataframe R en un dataframe Spark
  • Travaux pratiques avec Hadoop
Fonctions spécifiques
  • Définition de nouvelles fonctions
  • Appels
  • Passage d’argument
  • Construction d’une bibliothèque
  • Diffusion, installation avec R CMD INSTALL
Évolutions
  • Les acteurs: IBM avec BigInsights, Revolution R avec ScaleR

Certificat, diplôme

Une attestation de participation sera transmise aux participants

Contact pour cette formation

Nathalie Thielemans / Nassera Aici

Ces formations pourraient vous intéresser

EN
Journée
Informatique et systèmes d'information - Système information - Architecture système information