Programmation R et intégration Big Data

Unternehmensübergreifende Weiterbildung

An wen richtet sich die Weiterbildung?

Chefs de projets, Data Scientist, Developpeurs

Dauer

3,00 Tag(e)

Sprache(n) der Dienstleistung

EN FR

Voraussetzungen

Connaissances de base en statistiques et en programmation

Ziele

Langage R: Programmation R pour Hadoop.

  • Connaître les principales fonctions statistiques de R
  • Utiliser des programmes R dans un environnement Hadoop en s'appuyant sur le système distribué hdfs et le stockage avec HBase
  • Intégrer R à un environnement Hadoop

Inhalt

Présentation R
  • Le projet R Programming
  • Calculs statistiques et génération de graphiques
  • Points forts de R Programming
  • Besoins du BigData
  • Positionnement R programming par rapport à Hadoop
Mise en oeuvre de R
  • Travaux pratiques: installation et tests sur une plate-forme CentOS
  • Utilisation de R en mode commande
  • Commandes de base
  • Syntaxe
  • Manipulations de nombres, vecteurs, tableaux, matrices, listes, …
Tableaux et matrices
  • Déclaration, dimensionnement, indexation
  • Opérations de base: produit de tableaux, transposition, produits de matrices
  • Matrices: équations linéaires, inversion, valeur propre, vecteur propre, déterminant, moindre carré, …
Liste et DataFrames
  • Définitions, cas d’utilisation
  • Attachement, détachement
  • Chargement d’un dataframe
  • La fonction scan
Statistiques
  • Distributions embarquées: uniforme, normale, poisson, exponentielle, …
  • Calculs statistiques. Modèles statistiques
  • Affichage en graphes, histogrammes
Import/export
  • Formats texte, csv, xml, binaire, largeur fixe, images (jpeg, png)
  • Encodage
  • Filtrage
  • Importation SQL
  • Importation depuis un socket réseau
  • Travaux pratiques: importation de données géodésiques et export au format Json
Intégration Hadoop
  • Association de la puissance du calcul distribué fourni par les outils hadoop et de la richesse des outils d’analyse statistique de R
  • Différents moyens d’intégration:sparkR, RHbase, RHDFS, RHadoop, rmr2 pour utiliser le système distribué hdfs depuis R, pour accéder à HBase depuis les programmes en R
  • Transformation d’un dataframe R en un dataframe Spark
  • Travaux pratiques avec Hadoop
Fonctions spécifiques
  • Définition de nouvelles fonctions
  • Appels
  • Passage d’argument
  • Construction d’une bibliothèque
  • Diffusion, installation avec R CMD INSTALL
Évolutions
  • Les acteurs: IBM avec BigInsights, Revolution R avec ScaleR

Zertifikat, Diplom

Une attestation de participation sera transmise aux participants

Kontakt für diese Weiterbildung

Nathalie Thielemans / Nassera Aici

Diese Weiterbildungen könnten Sie interessieren