A propos de ce cours

Le contenu ci-dessous est largement inspiré

Le web regorge de ressources sur R:

Ce notebook R a été construit grâce à Markdown sous R studio.

En application de ce cours de découverte des fonctionnalités de base de R, nous utiliserons cette fiche d’exercices.
Il vous est demandé de traiter tous les exercices et de produire un rapport au format notebook de R.
Ce travail est individuel et à rendre par mail pour le 17 Mars.



Généralités sur le logiciel R

Le logiciel R

Le logiciel R est un logiciel de statistique distribué gratuitement par le CRAN (http://cran.r-project.org/). Il est largement utilisé par la communauté statistique, notamment les universitaires, et permet d’accéder à de très nombreux outils statistiques. R comporte les outils suivants:

  • les fonctions de base,
  • un langage de programmation orienté objet,
  • des librairies (aussi appelées packages) - plus de 1800 sur le site CRAN !

Console, script et éditeur

On peut utiliser R en ligne de commande:

  • Le symbole > indique que R attend une instruction.
  • L’utilisateur rentre ses instructions et les valide avec la touche Entrée.
  • Si possible R exécute les instructions, affiche éventuellement une sortie, puis de demande de nouvelles instructions.
  • En cas d’instruction incomplète, le symbole + s’affiche, indiquant que R attend la suite des instructions (instructions sur plusieurs lignes).
  • Le symbole # permet de commenter son code, les commandes de la ligne situées après ce symbole ne sont pas éxécutées. La ligne de commande n’est pas pratique dès que le code devient long et complexe. On écrit alors un script dans un fichier annexe, avec l’extension .R et on l’exécute grâce à la commande \(\texttt{source}\). Il faut éventuellement faire attention à la position du répertoire courant de R.
source("mon_fichier.R") # exécute les instructions contenues dans mon_fichier.R
getwd() # affiche le nom du répertoire courant (working directory)
setwd('C:/Utilisateurs/Dombry/MonTP') # modifie le répertoire courant

Les éditeurs permettent de gérer console, scripts et répertoire courant de manière flexible grâce à une interface graphique avancée. Les deux éditeurs les plus courants sont Rgui et Rstudio.

Rstudio

On utilisera dans ce cours l’interface graphique Rstudio téléchargeable sur le site https://www.rstudio.com/. Rstudio incorpore plusieurs fonctionnalités:

  • fenêtres pour console, éditeur, environnement, historique, graphiques…
  • raccourcis graphiques pour l’installation de package, le répéertoire de travail, le débugage…
  • des fonctionnalités supplémentaires à R, notamment Rmarkdown permettant l’écriture de notebooks permettant de mélanger texte, code R et sorties logiciels.

L’aide sous R

Il est essentiel de savoir utiliser l’aide de R afin d’avoir plus de précisions sur l’utilisation d’une fonction: syntaxe, arguments, options …

help(mean)
?plot

Lorsque l’on ne sait pas très bien quoi chercher, on peut consulter l’aide générale ou encore interroger sur un sujet donné.

help.start()
help.search("median")
??quantile

On peut accéder directement aux exemples d’une fonction ou aux démonstrations ainsi:

example(quantile)
demo(graphics)
demo()

Les packages

Un package est une bibliothèque de programmes externes , c’est-à-dire un ensemble de programmes R qui complète les fonctions de base et permet d’augmenter les fonctionnalités de R. Certains sont considérer comme indispensable et sont installés par défaut. Avant d’être utilisé, un package doit être installé (s’il ne l’est pas déjà) grâce à la commande \(\texttt{install.packages}\), puis obligatoirement charger grâce à la commande \(\texttt{library}\). Les commandes suivantes sont les plus utiles, on peut aussi utiliser l’interface graphique (onglet Tools).

install.packages(MASS, dependencies=T) #charger le package MASS avec ses dépendances
library(MASS) # charger un package existant.
library(help = MASS) # retourne la liste des fonctions de la librairie MASS 
update.packages(MASS) # mettre à jour le package MASS
library() # lister les les packages installés sur l'ordinateur
update.packages() # mettre à jour tous les packages

Exemple: la fonction \(\texttt{mvrnorm}\) du package MASS permet de simuler des vecteurs Gaussiens. Pour l’exécuter, on commence par charger le package, puis on consulte l’aide de la fonction avant de l’utiliser.

library(MASS) # charger un package existant.
?mvrnorm
mvrnorm(n=3,mu=c(0,1),Sigma=matrix(c(1,0,0.5,0.5),2,2))


Les objets R

Création, affichage, suppression d’un objet

La création d’un objet se fait généralement par affectation an donnant un nom à l’objet avec l’un des trois opérateurs <-, -> et =. Dans la suite, on privilégiera -> pour l’affectation. Si un objet n’existe pas, l’affectation le crée. Sinon, l’affectation écrase la valeur précédente sans message d’avertissement.

L’affichage se fait grâce à la commande \(\texttt{print}\) ou tout simplement en appelant l’objet par son nom.

La liste de tous les objets crées s’obtient par la commande \(\texttt{ls()}\). On supprime un ou plusieurs objets grâce à la commande \(\texttt{rm(objet1,objet2,objet3)}\). De manière alternative à ces commandes en ligne, la fenêtre Environment de l’interface graphique permet la gestion des variables.

Exemples:

a <- 41 # l'objet a est créé avec la valeur 41
a # on affiche a
print(a) # on affiche a
x <- a # x reçoit la valeur de a
x = a # x reçoit la valeur de a
a -> x # x reçoit la valeur de a
x <- cos # x est écrasé et devient une fonction
ls() # liste des objets crées
rm(a); ls() # on supprime a 
rm(list=ls()) # suppression de tous les objets

Les différents types d’objets

Les types d’objets les plus usuels sont les suivants:

  • null (objet vide): \(\texttt{NULL}\)
  • logical (booléen vrai/faux): \(\texttt{TRUE}\), \(\texttt{FALSE}\) abrégé en \(\texttt{T}\), \(\texttt{F}\)
  • numeric (nombre réel): \(\texttt{1}\), \(\texttt{2.3333}\), \(\texttt{pi}\), \(\texttt{1e-10}\)
  • complex (nombre complexe): \(\texttt{2+0i}\), \(\texttt{2i}\)
  • character (chaîne de caractères): \(\texttt{'hello'}\), \(\texttt{"1"}\)
  • list (liste = collections d’objets hétérogènes)
  • function (fonction): \(\texttt{exp}\), \(\texttt{solve}\), \(\texttt{length}\)

Chaque objet possède deux attributs intrinsèques: son mode \(\texttt{mode()}\) et sa longueur \(\texttt{length()}\). Certains objets on plus d’attributs dont on peut connaître la liste grâce à la fonction \(\texttt{attributes()}\).

1<2
a <- cos(13); mode(a)
b <- 'toto'; mode(b)
c <- runif; mode(c)

On peut tester si objet est d’un type donné grâce aux fonctions \(\texttt{is.null()}\), \(\texttt{is.numeric()}\), \(\texttt{is.character()}\) … Dans certains cas, on peut convertir un objet d’un type en un autre avec les commandes \(\texttt{as.numeric()}\), \(\texttt{as.character()}\)… A utiliser avec prudence !

a <- TRUE
a; as.numeric(a); as.character(a)

Dans certaines opérations, les booléens sont assimilés aux valeurs 0 (FALSE) et 1 (TRUE). Exemple:

13+F+F
sum(T,F,F,F,T)

Valeurs spéciales: NA, Inf, NaN

Il est utile en statistique de pouvoir indiqué qu’un objet n’est pas renseigné. Cela est fait grâce au symbole \(\texttt{NA}\) (Not Available). Exemple:

age <- c(27,25,28); age[4] <- NA # on crèe une variable age avec la 4eme valeur manquante
age; is.na(age) # affichage et repérage des valeurs manquantes
age+3 # NA a ses propres règles de calcul

Les valeurs \(\texttt{Inf}\) (infinity) et \(\texttt{NaN}\) (Not a Number) proviennent généralement de problèmes calculatoires. Exemple:

1/0; exp(2019); log(-2)

Les vecteurs

Les matrices

Les facteurs

Les listes

Les fonctions

