Envie de participer ?
Bandeau

Produire des diagrammes en bâtons ne semble pas une tâche ardue. Cependant, pour obtenir quelques graphiques complexes, il vaut souvent mieux réfléchir à l’organisation de la table SAS en entrée, que chercher une option qui n’existe peut-être pas.

Avec une variable bâtons de type numérique, le choix fait automatiquement par la procédure GCHART est discutable. L’option GROUP permet d’obtenir plusieurs séries de bâtons. Avec l’option SUBGROUP, le graphique est automatiquement enrichi d’une légende. On peut enfin cumuler toutes ces options pour représenter 4 variables simultanément sur le graphique (bâtons, groupes, sous-groupes et statistiques).

Il est à noter que l’aspect du graphique, si on utilise l’instruction HBAR au lieu de VBAR, peut être assez différente. En l’état, vos données ne peuvent pas se prêter à un tel graphique : l’option SUMVAR n’accepte qu’une seule variable par graphique.

Il faut donc transformer les données au préalable pour avoir sur des observations différentes ce qui se trouve actuellement dans des variables différentes. On fera bien attention de ne pas oublier de variables dans le BY de manière à n’obtenir qu’un pivot partiel des données.

A partir du nombre de Français par sexe et par tranche d’âge, on souhaite produire une pyramide des âges. Cet exemple illustre la possibilité de faire des bâtons dans deux directions différentes. L’astuce pour avoir deux séries de barres dans des directions opposées est de donner un signe négatif à la population d’un des deux sexes.

Lire aussi: Le pistolet à deux coups : un aperçu

On ajoutera à cette table une variable RANG qui nous permettra d’ordonner comme on le souhaite les tranches d’âges (dans une pyramide, par convention, les plus âgés sont en haut du graphique). On produit ensuite une première version de la pyramide des âges : POP est la variable statistique, AGE est la variable de bâtons, et un sous-groupe par SEXE est demandé.

Par rapport à ce premier résultat, il faut avant tout ordonner les bâtons comme on le souhaite. On dispose pour cela de l’option MIDPOINTS, derrière laquelle on énumère, entre guillemets, toutes les valeurs de AGE que l’on veut voir s’afficher, dans cet ordre. Il faudrait donc écrire, en ce qui nous concerne, MIDPOINTS = « 100 ans ou plus » « 95 à 99 ans » … « 5 à 9 ans » « 0 à 4 ans ».

On ajoute des espaces entre Femmes et Hommes dans le label de l’axe horizontal pour retrouver ces mots de part et d’autre du point 0. Quant aux deux instructions PATTERN, elles permettent de jouer sur la couleur des bâtons. Si PATTERN1 et PATTERN2 sont automatiquement associés aux deux premières zones à colorier dans le graphique, AXIS1 n’est associé à l’axe horizontal qu’en ajoutant l’option RAXIS = axis1 dans l’instruction HBAR.

Utilisation de ggplot2 pour des graphiques perfectionnés

Ggplot2 est un package de R qui permet de réaliser des graphiques plus perfectionnés, et au design plus moderne. QPLOT (pour "Quick Plot") qui est la fonction "de base" du package (mais qui offre de grandes possibilités). GGPLOT va permettre de créer des graphiques extrêmement perfectionnés. Sa syntaxe diffère de la syntaxe habituelle : ggplot(data=data,aes=(x,y)) +layers.

L’argument geom() (pour objet géométrique) va permettre de réaliser différents graphiques à une ou deux dimensions. De nombreux graphiques sont possibles (voir geom dans la documentation du package ggplot2, ou en page 56). Le graphique produit par défaut est un diagramme en bâton (à ne pas confondre avec un histogramme !!!

Lire aussi: Adrénaline et paintball aux Deux Alpes

Les arguments de la fonction peuvent être modifiés, par exemple pour produire un graphique avec des points bleu (et non noirs).... Enfin, l’argument alpha est utile en cas de nombre conséquent d’observations qui vont se superposer sur le graphique (ce qui n’est pas le cas ici). En ajustant la transparence, il permet d’améliorer la lisibilité du graphique.

À noter que la méthode pour tracer la courbe de tendance peut être changée par l’utilisateur grâce à l’argument «method= (par défaut, method=« loess » pour un nombre d’observations faible). Il n'est pas rare de vouloir représenter la distribution une variable continue, selon différentes sous-populations définies par une variable discrète. Pour cela on peut utiliser un boxplot.

Attention à ne pas confondre fill=I("red") (utilisé pour paramétrer le remplissage en rouge, valable aussi pour l'argument colour..) et fill=group (utilisé pour changer la couleur selon les sous-populations définies pas la variable group). Déclarer fill="red" et non fill=I("red") aurait pour conséquence de créer une nouvelle variable "red", et de représenter les observations de couleurs différentes selon les modalités prises par cette variable (soit une seule).

Création de graphiques juxtaposés avec QPLOT

QPLOT offre aussi la possibilité de créer plusieurs graphiques juxtaposés, correspondant à un même graphique pour chacune des différentes sous-populations définies par une variable group. On utilise l’argument facets=.. facets= . ~ group va présenter les graphiques cote à cote (horizontalement), tandis que facets= group ~ . les superposera (verticalement). Par exemple ici, l’histogramme pour la variable Sepal.Length, pour chaque espèce.

Line et path sont utilisés dans le cas de séries temporelles. On trace ensuite par exemple le nombre de personnes au chômage en fonction du taux de chômage. L’argument path va permettre de relier les points pour visualiser la variation d’année en année. Ici, même sans ajouter la couleur le graphique est clair (il y a peu d’observations, et les tracés ne se superposent pas). Mais dans d'autres cas, l'ajout de ce dégradé de couleur selon l'année permet de rendre le graphique beaucoup plus lisible.

Lire aussi: Jeux de pistolet à deux joueurs : une expérience amusante

ggplot est la seconde fonction du package ggplot2, et va permettre de produire des graphiques plus complexes et élaborés. Par exemple, si l’on souhaite tracer un nuage ce points, on ajoute le layer geom=« point » sous la forme suivante : ggplot(data=data,aes(x,y,….)) + layer(geom=« point »,……).

Stat consiste en une transformation statistique des données. De nouvelles variables vont être créées, qui résument les variables d’une certaine manière. Lorsque geom est utilisé, cette transformation va être automatiquement réalisée (selon le type de graphique souhaité). Elle peut éventuellement être l’identité.

Par exemple, la transformation associée par défaut à l’histogramme est « bin », et va créer trois nouvelles variables : count (le nombre d’observation dans chaque classe), density (le pourcentage divisé par la largeur de la classe), et x (le centre de la classe). stat_params contient les paramètres associés à cette transformation.

Tout d’abord, l’argument layer(geom="histogram",geom_params=list(fill="orange") peut être remplacé par l’argument geom_histogram(fill=« orange »). NB : il est parfois nécessaire de demander à imprimer le graphique à l’écran. On va raisonner de cette façon pour la suite.

scale_XXX() (par exemple : scale_x_continuous(), : contrôlant l’échelle utilisée pour les axes. On peut changer les labels de l'axe des x (discret). Attention, pour des graphiques de type scatterplot, cela va simplement exclure du graphique les observations en dehors de l'intervalle.

Position permet d'ajuster la position de l'objet géométrique. Comme pour stat, une modalité est associée par défaut à chaque geom. Il n’est donc pas nécessaire de le spécifier, sauf si l’on souhaite utiliser un argument différent de la valeur par défaut. position_identity - default pour la pluspart des geoms. Attention à réfléchir à la position la plus adaptée.

Une fois le graphique créé, il est possible de l'appliquer à un jeu de données différent (à condition que les variables correspondent). Par exemple ici, on crée trois bases de données, contenant les mêmes variables. On crée un graphique de type scatter plot, affichant une droite de regression linéaire pour le sous-jeu de données setosa.

Défis et solutions pour les histogrammes superposés

Juliette Fabre a écrit : Bonjour! J'essaie de représenter les histogrammes d'une même variable observée dans 2 conditions sur le même graphe : Pour le moment j'utilise "hist" et je trace les 2 histogrammes l'un après l'autre en les superposant, mais j'ai des problèmes au niveau de la concordande des axes et de la largeur des barres (elles se superposent et sont de largeur différentes, j'essaie de jouer avec nclass mais c'est pas terrible) ..

  1. N'existe-t-il pas une astuce pour tracer l'histogramme de la variable décomposée suivant les 2 conditions avec 2 couleurs?
  2. Sinon comment gérer la largeur des barres dans "hist"?

NB: il y a des techniques plus sophistiquées que les histogrammes, comme les graphes de densité (techniquement, les histogrammes sont des estimateurs de la densité de proba des v.a.). Mhh j'avais vu la fonction histogram de lattice, mais j'étais intéressée par des histogrammes superposés et non juxtaposés!

2) tu représentes le même histogramme mais à blanc pour récupérer la fenêtre de travail qui sera vide mais qui aura les bons axes et les bonnes limites dans laquelle tu pourras ensuite tracer tes histogrammes. Et pour diminuer la largeur des barres tu ne sais pas? Je ne vois pas trop l'intérêt de séparer les colonnes entre elles alors que les histogrammes représentent quelque chose de continue. Mais si c'est le cas alors oriente toi peut être vers des barplot en en représentant les counts de tes histogrammes et en jouant sur space.

En fait pour certaines de ces variables les 2 histogrammes des conditions se superposent et on ne voit plus grand chose, et j'aurais donc voulu pouvoir alterner les barres des 2 conditions.. D'après ce que je lis c'est la fonction barplot indiquée par maxime qu'il te faut utiliser. C'est vraiment fait pour cela. Je suis obligée de faire les 2 barplots à la suite, et les barres du 2ème se superposent sur celles du 1er!

Je veux bien vous montrer le résultat mais je ne sais pas comment insérer un graphe dans le message???? Ah ben oui ça marche!

Concepts statistiques de base

Choisissez le terme à expliquer... ei+1 - ei . sur lequel les opérations arithmétiques telles que moyenne, somme, ... que somme, moyenne, ... , ... Ce sont les abscisses respectives des points d'ordonnée 0.01 ; 0.02 ; ... le point moyen du nuage. Ce coefficient est toujours compris entre -1 et + 1. si r = - 1).

N ( x ) = nombre d'observations ≤ x. Il s'obtient au moyen des effectifs cumulés croissants. Si on raisonne en fréquences (au lieu d'effectifs), on a le tracé de la fonction de répartition. N' ( x ) = nombre d'observations > x. X est la courbe représentant les moyennes conditionnelles de Y, à X fixé. Ce nombre est positif si X et Y ont tendance à varier dans le même sens, et négatif si elles ont tendance à varier en sens contraire.

, ... Ce sont les abscisses respectives des points d'ordonnée 0.1 ; 0.2 ; ... des bases de rectangles égales et équidistantes, et les effectifs (ou fréquences) en ordonnée, suivant une échelle arithmétique. Diagramme permettant simultanément de dépouiller les données d'une série statistique et de faire une représentation graphique. Ensemble de mesures ou d'observations concernant l'état ou l'évolution d'un phénomène.

pour des données groupées. Nombre d'individus pour lesquels une variable statistique a pris une valeur donnée. = n1 + n2 , ... + n2 + ... = nK + nK-1 , ... + nK-1 + ... C'est le nombre d'observations, d'une série statistique brute, nombre d'individus de la population étudiée. Différence entre la plus grande et la plus petite des observations d'une série statistique.

C'est le tracé de la fonction N qui à tout x associe N ( x ) = nombre d'observations ≤ x. Il s'obtient au moyen des effectifs cumulés croissants. Si on raisonne en fréquences (au lieu d'effectifs), on a le tracé de la fonction de répartition. , ... , ou entre F2 et F3 , etc. C'est la proportion (ou le pourcentage) d'individus pour lesquels une variable statistique a pris une valeur donnée.

+ f2 , ... + ... + fK-1 , ... + ... (ou fréquences) associés. pour tout x , est constante (c'est-à-dire ne dépend pas de x). Les individus sont les éléments de la population statistique étudiée. Pour chaque individu, on dispose d'une ou plusieurs observations. d'au moins égale à 1 - , pour tout k ³ 1.

< .... Les modalités d'une variable qualitative sont les différentes valeurs que peut prendre celle-ci. Par exemple les modalités de la variable "situation familiale" sont : célibataire, marié, veuf, divorcé. , .... i = 1, ... , ... , p2 , ... , M2 , ... ) ; ( x2 , y2 ) ; ... Une population statistique est l'ensemble sur lequel on effectue des observations. Ce sont les distributions conditionnelles, écrites en fréquences et non en effectifs.

et Q3 , et 25 % supérieures à Q3. , Q3 sont respectivement l'abscisse des points d'ordonnées 0.25 ; 0.5 ; 0.75 sur la courbe cumulative croissante. par ordre croissant. La Statistique descriptive bivariée consiste en la description de deux variables mesurées simultanément sur les mêmes individus.

mais extrapole les constatations faites à un ensemble plus vaste, permet de tester des hypothèses sur cet ensemble, et de prendre des décisions le concernant. Les individus sont les éléments de la population statistique étudiée. chaque pays pour lequel on étudie des données socio-économiques, ... réel. C'est une variable qualitative qui ne peut prendre que 2 modalités : OUI ou NON ; masculin ou féminin ; bon ou mauvais , etc....

C'est une variable quantitative pouvant prendre par nature un nombre fini (ou dénombrable) de valeurs. sur lequel les opérations arithmétiques telles que moyenne, somme, ... C'est une variable qualitative dont les modalités ne sont pas ordonnées. est moins forte que la B, qui est moins forte que la C, etc... tailles de vêtement 0 1 2 3 ... mais la taille 2 ne signifie pas que le vêtement est 2 fois plus grand que celui de la taille 1 !

Une variable statistique est quantitative si ses valeurs sont des nombres sur lesquels des opérations arithmétiques telles que somme, moyenne, ... C'est ce qui est observé ou mesuré sur les individus d'une population statistique. Il peut s'agir d'une variable qualitative ou quantitative. - )² pour des données groupées. ( xi est le centre de classe dans le cas de données regroupées en classes).

n2 , ... telles que la moyenne de Y sur chaque classe est : 1 , ... C'est la moyenne des variances des distributions conditionnelles, pondérées par les effectifs. , ... 1 , ... Une fois les données importées (avec RStudio), il est nécessaire de les vérifier et des les préparer. Les variables qualitatives demandent un traitement préliminaire pour les transformer en facteur.

On installe les packages utilisés dans la suite. On peut utiliser les fonctions de base de R pour obtenir les principaux résumés statistiques. La fonction table permet d'obtenir les effectifs de chaque modalité d'une variable qualitative. Pour obtenir les pourcentages, il faut rajouter prop.table. La représentation graphique s'obtient a avec la fonction plot. La fonction abline permet de rajouter des lignes de référence (axes).

proportions(table(, ), margin=1)*100 # Pourcent. proportions(table(, ), margin=2)*100 # Pourcent. La boite à moustaches permet de visualiser la variable quantitative sur chaque groupe.

tags: #deux #histogrammes #juxtaposés #r #exemple

Post popolari: