ou comment exploiter 50 nuances de gris!
analyse statistiquePourquoi l'analyse a-t-elle besoin d'outils statistiques ? L'analyse exploite des observations réelles – les données- pour en tirer des arguments objectifs, par opposition à un raisonnement subjectif basé sur l'intuition. Mais peut-on se fier pleinement aux données sans y apporter de correctifs ? Les données comportent un degré inhérent d'incertitudes qu'une analyse purement mathématique limiterait à des extrêmes en noir et blanc. Les statistiques permettent d'explorer et d'affiner les zones de gris en prenant en considération l'incertitude pour en tirer des conclusions significatives et pertinentes.

Comprendre les échantillons

Une analyse se base souvent sur un sous-ensemble de données, appelé échantillon. Les modèles de ces échantillons permettent d'étendre à la population globale les conclusions de l'analyse. Maîtriser ces modèles mais aussi connaître leurs limites est au cœur du métier d'analyste, qui va utiliser les statistiques pour délivrer des conclusions précises et fiables.

Les statistiques recouvrent un ensemble d'outils et de techniques destinés à interpréter les modèles. Détaillons les principaux concepts, tirés du livre « Les statistiques pour les nuls » de Déborah Rumsey.

  • Tendance centrale

Découvrir le milieu d'une population est généralement le point de départ des analyses. C'est le domaine des moyennes et des médianes pour définir le centre du public donné.

  • Variation et distribution

Même si la plupart des populations ont une concentration au centre, on trouve généralement des variations des deux côtés de ce milieu, le plus souvent uniformes et prévisibles. La variation de nombreuses populations se situe dans un modèle appelé « distribution normale » : l'analyste peut ainsi estimer de manière fiable la distance probable entre une observation spécifique et le centre de la population.

  • Rang et statut relatif

Lorsque tous les membres d'une population sont classés, vous pouvez les diviser en groupes pairs : quantiles pour 4 groupes, déciles pour 10 groupes, centiles pour 100 groupes...Cette répartition est l'une des approches les plus simples pour analyser une population car elle permet d'identifier rapidement le volume de chaque groupe, ses limites et sa position par rapport au milieu pour en tirer les conséquences analytiques adéquates.

  • Test d'hypothèses et intervalle de confiance

Les analyses préliminaires établies, avant de tirer des conclusions, il est essentiel de les tester. Un test d'hypothèses fournit ainsi une base quantitative pour prouver que les données supportent les revendications. S'agissant d'une action incertaine au départ, nous utilisons des intervalles de confiance pour qualifier la fiabilité d'une conclusion avec une probabilité de 95% par exemple.

  • Corrélation

Parmi les modèles importants dans un ensemble de données, se trouve la corrélation ou les associations entre différents types de données. Certaines observations, telles que la taille ou le poids, peuvent avoir une forte corrélation. C'est un outil de prédiction important : la valeur de certaines observations permet de prédire la valeur des autres.

Ces concepts constituent le fondement pour comprendre les modèles de données d'une population. Mais l'analyste utilise d'autres outils pour obtenir des conclusions fiables, que nous dévoilerons dans un prochain article de notre blog.