Calculateur de statistiques descriptives

Ce calculateur de statistiques descriptives analyse votre série de données et calcule en une seule opération la moyenne, la médiane, le mode, l'étendue, la variance, l'écart-type et les quartiles. Il prend en charge indifféremment les populations entières et les échantillons, avec la correction de Bessel automatique selon votre choix.

Chargement du calculateur…

Ce que le calculateur de statistiques calcule

Saisissez une série de nombres séparés par des virgules, des espaces ou des retours à la ligne. Le calculateur parse automatiquement la saisie, trie les valeurs et calcule treize indicateurs statistiques regroupés en deux familles : les mesures de position (moyenne, médiane, mode, min, max, quartiles) et les mesures de dispersion (étendue, variance, écart-type, IQR).

Le seul paramètre à choisir est le type de calcul : population entière ou échantillon. Ce choix affecte uniquement le diviseur de la variance — n pour une population, n − 1 pour un échantillon (correction de Bessel). Toutes les autres mesures sont identiques.

Pour aller plus loin sur chacun de ces indicateurs, les calculateurs de moyenne, médiane, mode et étendue et d'écart-type offrent des explications approfondies et des cas d'usage dédiés.

Les indicateurs statistiques essentiels

  • La moyenne est sensible aux valeurs extrêmes. Une série avec un salaire à 100 000 € fait monter la moyenne bien au-delà du salaire typique de la plupart des individus.
  • La médiane est robuste : elle résiste aux valeurs aberrantes. Elle représente mieux la valeur centrale d'une distribution asymétrique.
  • L'écart-type mesure la dispersion autour de la moyenne. Plus il est élevé, plus les valeurs sont éparpillées. Un écart-type nul indique que toutes les valeurs sont identiques.
  • L'IQR (intervalle interquartile = Q3 − Q1) concentre les 50 % centraux de la distribution. Il est utilisé pour détecter les valeurs aberrantes sans être influencé par elles.
  • Le mode est la valeur la plus fréquente. Une série peut être amodale (aucun mode, si toutes les valeurs sont distinctes) ou bimodale/multimodale (plusieurs valeurs à fréquence égale maximale).

Glossaire : les treize indicateurs calculés

Effectif (n) : nombre total de valeurs dans la série, après filtrage des saisies non numériques.

Somme : total de toutes les valeurs. Utilisée pour calculer la moyenne et vérifier la cohérence des données.

Minimum / Maximum : valeurs extrêmes de la série triée. Délimitent l'étendue de la distribution.

Étendue : différence entre le maximum et le minimum. Mesure brute de la dispersion, très sensible aux valeurs aberrantes.

Moyenne (x̄) : centre de gravité arithmétique de la série. Sensible aux valeurs extrêmes.

Médiane : valeur qui partage la série triée en deux moitiés égales. Robuste aux valeurs aberrantes.

Mode : valeur(s) apparaissant le plus fréquemment. Vaut « Aucun » si toutes les valeurs sont distinctes.

Variance : moyenne des carrés des écarts à la moyenne. Exprimée dans l'unité² des données.

Écart-type : racine carrée de la variance. Exprimé dans la même unité que les données — plus interprétable.

Q1 (premier quartile) : valeur en dessous de laquelle se situent 25 % des données.

Q3 (troisième quartile) : valeur en dessous de laquelle se situent 75 % des données.

IQR : Q3 − Q1 — contient les 50 % centraux de la distribution. Référence pour identifier les valeurs aberrantes.

Comment calculer les statistiques descriptives d'une série ?

La première opération est le tri croissant de la série, indispensable pour la médiane, les quartiles et le mode. Le tri ne change pas la moyenne ni la variance.

La moyenne est calculée en un seul passage : somme divisée par le nombre de valeurs. La médiane dépend du nombre de valeurs : si n est impair, c'est la valeur centrale ; si n est pair, c'est la moyenne des deux valeurs centrales.

Le mode est déterminé en comptant la fréquence de chaque valeur distincte. Si la fréquence maximale est 1 (toutes les valeurs apparaissent une seule fois), la série est dite amodale — aucun mode n'existe. Si plusieurs valeurs atteignent la même fréquence maximale, la série est multimodale.

La variance nécessite deux passes : calculer la moyenne d'abord, puis sommer les carrés des écarts. Le diviseur varie selon que l'on travaille sur une population entière (n) ou un échantillon (n − 1). Les quartiles sont calculés par interpolation linéaire entre les deux valeurs encadrant la position théorique.

Les formules : moyenne, médiane, variance et écart-type

Moyenne arithmétique :

x̄ = (Σ xᵢ) / n

Variance (population et échantillon) :

  • Population : σ² = Σ(xᵢ − x̄)² / n
  • Échantillon : s² = Σ(xᵢ − x̄)² / (n − 1)

Écart-type :

σ = √variance

Étendue et IQR :

  • Étendue = max − min
  • IQR = Q3 − Q1

Les variables de ces formules sont :

  • n : effectif (nombre de valeurs)
  • xᵢ : chaque valeur de la série
  • : moyenne arithmétique
  • Q1, Q3 : premier et troisième quartile (méthode QUARTILE.INC, interpolation linéaire)

Exemple : série [2, 4, 4, 4, 5, 5, 7, 9]

Série : 2, 4, 4, 4, 5, 5, 7, 9 — triée : [2, 4, 4, 4, 5, 5, 7, 9]

  • Effectif : n = 8
  • Somme : 2 + 4 + 4 + 4 + 5 + 5 + 7 + 9 = 40
  • Moyenne : 40 / 8 = 5
  • Médiane : (triées[3] + triées[4]) / 2 = (4 + 5) / 2 = 4,5 (n pair)
  • Mode : 4 (apparaît 3 fois — fréquence maximale)
  • Étendue : 9 − 2 = 7
  • Variance (population) : [(2−5)² + (4−5)² + (4−5)² + (4−5)² + (5−5)² + (5−5)² + (7−5)² + (9−5)²] / 8 = [9+1+1+1+0+0+4+16] / 8 = 32 / 8 = 4
  • Écart-type : √4 = 2
  • Q1 : position h = 7 × 0,25 = 1,75 → triées[1] + 0,75 × (triées[2] − triées[1]) = 4 + 0 = 4
  • Q3 : position h = 7 × 0,75 = 5,25 → triées[5] + 0,25 × (triées[6] − triées[5]) = 5 + 0,5 = 5,5
  • IQR : 5,5 − 4 = 1,5

Cette série est asymétrique à droite : la moyenne (5) est légèrement supérieure à la médiane (4,5), tirée vers le haut par la valeur 9. L'écart-type de 2 indique une dispersion modérée autour de la moyenne.

Exemple : analyse complète avec mode multiple et échantillon

Série : 1, 1, 2, 3, 3 — type : échantillon (n=5).

Calculs :

  • Somme : 1+1+2+3+3 = 10 ; moyenne = 10/5 = 2
  • Médiane : triées[2] = 2 (n impair)
  • Mode : 1 et 3 apparaissent chacun 2 fois → bimodale : 1, 3
  • Variance (échantillon) : [(1−2)²+(1−2)²+(2−2)²+(3−2)²+(3−2)²] / 4 = [1+1+0+1+1] / 4 = 1
  • Écart-type : √1 = 1

Cas extrême — un seul élément (ex. : « 42 »), type échantillon : le diviseur devient n − 1 = 0. La variance et l'écart-type sont mathématiquement indéfinis. Le calculateur retourne « − » pour ces deux indicateurs plutôt que de générer une erreur.

Série amodale — ex. : « 1, 3, 5, 7, 9 » : chaque valeur apparaît une seule fois, fréquence maximale = 1. Le mode est affiché « Aucun » (amodale). L'étendue vaut 9 − 1 = 8 et la variance échantillon = 40 / 4 = 10 (écart-type ≈ 3,162).

Comment interpréter moyenne, médiane et écart-type ensemble ?

La relation moyenne/médiane révèle la forme de la distribution. Si moyenne > médiane, la distribution est asymétrique à droite (quelques valeurs très élevées tirent la moyenne vers le haut). Si moyenne < médiane, elle est asymétrique à gauche. Si elles sont proches, la distribution est approximativement symétrique.

L'écart-type rapporté à la moyenne donne le coefficient de variation (CV = σ/x̄). Un CV inférieur à 15 % indique une série homogène. Au-delà de 30 %, la série est très dispersée — la moyenne perd de son pouvoir représentatif.

La règle empirique (pour une distribution normale) : environ 68 % des valeurs se trouvent dans [x̄ ± 1σ], 95 % dans [x̄ ± 2σ], 99,7 % dans [x̄ ± 3σ]. Elle n'est valide que si la série suit approximativement une loi normale.

L'IQR et la détection des valeurs aberrantes : une valeur est conventionnellement considérée aberrante si elle est inférieure à Q1 − 1,5 × IQR ou supérieure à Q3 + 1,5 × IQR (règle de Tukey). Cette règle est indépendante de la forme de la distribution, contrairement à la règle basée sur l'écart-type.

Population ou échantillon : quelle formule choisir ?

La distinction est fondamentale et conditionne la validité statistique des résultats.

  • Population entière : vous disposez de toutes les valeurs du groupe étudié. Exemple : les notes d'un élève sur toute l'année, les températures enregistrées sur 30 jours complets. Diviseur = n. L'estimateur est dit « biaisé » au sens de la théorie de l'estimation, mais c'est le calcul correct quand toutes les données sont disponibles.
  • Échantillon : vous disposez d'un sous-ensemble tiré d'une population plus grande et souhaitez inférer les caractéristiques de toute la population. Exemple : 50 personnes interrogées pour estimer la moyenne d'une ville entière. Diviseur = n − 1 (correction de Bessel). Cette correction compense le biais introduit par le fait que l'échantillon est centré sur sa propre moyenne, pas sur la moyenne inconnue de la population.

En pratique : si vous avez collecté toutes les données du phénomène que vous étudiez (un trimestre de ventes, une promotion entière d'étudiants), utilisez la formule population. Si vos données ne sont qu'un extrait et que vous souhaitez tirer des conclusions générales, utilisez la formule échantillon.

Pour approfondir l'analyse inférentielle à partir d'un écart-type, le calculateur d'écart-type et le calculateur de probabilité offrent des outils complémentaires.

Calculateurs pour approfondir l'analyse statistique

Utilisez le calculateur de moyenne, médiane, mode et étendue si vous souhaitez une explication détaillée de chacun de ces quatre indicateurs avec des exemples pédagogiques développés.

Utilisez le calculateur d'écart-type si vous avez besoin d'approfondir la dispersion, le coefficient de variation ou la comparaison de deux séries sur leur homogénéité.

Utilisez le calculateur de probabilité pour passer des statistiques descriptives à l'inférence — calculer la probabilité qu'une valeur appartienne à un intervalle donné sous hypothèse de normalité.

Les erreurs fréquentes dans le calcul des statistiques

  • Erreur 1 — Confondre population et échantillon : utiliser le diviseur n sur un échantillon sous-estime systématiquement la variance réelle de la population. Sur de petits échantillons (n < 30), l'écart peut être significatif. Vérifiez toujours si vos données représentent la totalité du phénomène étudié ou un extrait.
  • Erreur 2 — Interpréter la moyenne seule : une moyenne de 50 peut correspondre à des données très homogènes [48, 49, 50, 51, 52] ou extrêmement dispersées [0, 0, 50, 100, 100]. Sans l'écart-type ou l'IQR, la moyenne ne dit rien sur la distribution réelle des valeurs.
  • Erreur 3 — Oublier que le mode peut être absent : une série où toutes les valeurs sont distinctes est amodale — il n'existe pas de valeur « la plus fréquente ». Forcer un mode dans ce cas est une erreur d'interprétation.
  • Erreur 4 — Utiliser l'étendue comme indicateur de dispersion principal : l'étendue (max − min) est entièrement déterminée par les deux valeurs extrêmes et ignore toute la structure intermédiaire. Une seule valeur aberrante peut la rendre totalement non représentative. L'IQR et l'écart-type sont des mesures de dispersion bien plus robustes.

Questions fréquentes

Comment calculer la moyenne d'une série statistique ?

La moyenne arithmétique se calcule en additionnant toutes les valeurs de la série puis en divisant le résultat par le nombre de valeurs (effectif n). Formule : x̄ = (Σ xᵢ) / n. Exemple : pour la série [2, 4, 6, 8], la somme est 20 et l'effectif est 4, donc la moyenne est 20 / 4 = 5. La moyenne est sensible aux valeurs extrêmes : une seule valeur aberrante peut la déplacer significativement.

Quelle différence entre moyenne et médiane ?

La moyenne est la somme des valeurs divisée par leur nombre — elle est sensible aux valeurs extrêmes. La médiane est la valeur centrale de la série triée — elle est robuste aux valeurs aberrantes. Pour les distributions asymétriques (revenus, prix immobiliers), la médiane représente mieux la valeur typique que la moyenne. Si moyenne > médiane, quelques valeurs élevées tirent la distribution vers la droite. Si elles sont proches, la distribution est environ symétrique.

Comment calculer l'écart-type d'une série ?

L'écart-type se calcule en trois étapes : 1) calculer la moyenne x̄ ; 2) calculer la variance = moyenne des carrés des écarts à la moyenne [Σ(xᵢ − x̄)² / n pour une population, / (n−1) pour un échantillon] ; 3) prendre la racine carrée de la variance. L'écart-type est exprimé dans la même unité que les données, ce qui le rend plus interprétable que la variance (exprimée en unité²).

Quelle différence entre variance population et variance échantillon ?

La variance population divise par n — elle est exacte quand vous disposez de toutes les données du groupe étudié. La variance échantillon divise par n − 1 (correction de Bessel) — elle est utilisée quand vos données ne sont qu'un extrait d'une population plus grande. La correction n − 1 compense le fait que l'échantillon est centré sur sa propre moyenne, ce qui sous-estime légèrement la variabilité réelle de la population. Sur de grands échantillons, la différence est négligeable.

Qu'est-ce que le mode en statistiques ?

Le mode est la valeur qui apparaît le plus fréquemment dans une série. Une série peut avoir : aucun mode (amodale, si toutes les valeurs sont distinctes), un seul mode (unimodale), ou plusieurs modes (bimodale, multimodale) si plusieurs valeurs partagent la même fréquence maximale. Pour les données qualitatives ou discrètes, le mode est souvent plus pertinent que la moyenne. Pour les données continues, il est rarement utilisé seul.

À quoi sert l'intervalle interquartile (IQR) ?

L'IQR (Q3 − Q1) mesure la dispersion des 50 % centraux de la distribution, indépendamment des valeurs extrêmes. Il est utilisé pour deux usages principaux : 1) évaluer la dispersion de la distribution centrale de façon robuste (contrairement à l'étendue, une seule valeur aberrante ne le modifie pas) ; 2) détecter les valeurs aberrantes via la règle de Tukey : toute valeur inférieure à Q1 − 1,5 × IQR ou supérieure à Q3 + 1,5 × IQR est considérée aberrante.

Comment identifier une valeur aberrante dans une série ?

La méthode la plus courante est la règle de Tukey : calculer Q1, Q3 et IQR, puis déterminer les bornes basse (Q1 − 1,5 × IQR) et haute (Q3 + 1,5 × IQR). Toute valeur hors de ces bornes est une valeur aberrante potentielle. Cette méthode ne suppose aucune forme de distribution. Une alternative basée sur l'écart-type (valeur à plus de 2σ ou 3σ de la moyenne) est moins robuste car elle est elle-même influencée par les valeurs aberrantes.

Qu'est-ce qu'une série bimodale ?

Une série bimodale présente deux valeurs dont la fréquence est égale et maximale. Exemple : [1, 1, 2, 3, 3] — les valeurs 1 et 3 apparaissent chacune 2 fois, fréquence maximale. La bimodalité peut indiquer que la série mélange deux sous-populations distinctes (ex. : tailles d'adultes hommes et femmes confondues). Dans ce cas, analyser les sous-groupes séparément est souvent plus pertinent que calculer des statistiques globales.

Pourquoi l'écart-type est-il plus utile que la variance ?

La variance est exprimée dans l'unité² des données (ex. : kg² pour des masses). L'écart-type est la racine carrée de la variance, donc exprimé dans la même unité que les données (ex. : kg). Cela le rend directement comparable aux valeurs de la série et interprétable sans conversion. En pratique, on dit qu'une valeur se situe « à 2 écarts-types de la moyenne », ce qui a un sens immédiat — dire qu'elle est « à 4 unités² » n'en a aucun.