Lorsque vous utilisez Google Sheets pour travailler avec deux ensembles de données, vous souhaiterez peut-être comparer les deux en déterminant dans quelle mesure l'un influence l'autre.
Les corrélations peuvent donner un aperçu de l'existence d'une relation prédictive entre les plans x et y, mais elles n'indiquent pas nécessairement une causalité. Voici comment vous pouvez utiliser Google Sheets pour identifier les corrélations dans vos données.
Qu'est-ce que la corrélation et à quoi pouvez-vous l'utiliser ?
Lorsque deux variables sont corrélées, on peut déterminer comment une variable impacte l'autre. Mais, il est crucial de se rappeler que la corrélation n'implique pas la dépendance dans ce cas; cela montre simplement à quel point deux variables se comparent ou se rapportent étroitement et rapidement.
Les mesures statistiques aident à comprendre les tendances sous-jacentes dans l'analyse des données. La corrélation est l'une des mesures statistiques les plus souvent utilisées, et elle détermine à quel point deux variables sont étroitement liées ou dépendantes.
Comprendre le coefficient de corrélation dans Google Sheets
Dans Google Sheets, un coefficient de corrélation est calculé à l'aide de la fonction CORREL. Le coefficient de corrélation sert d'indicateur du degré de connexion des ensembles de données. Il peut être utilisé pour obtenir le coefficient de corrélation produit-moment de Pearson (r) si vous disposez de deux ensembles de données variables. Si vous souhaitez en savoir plus sur ce coefficient, vous pouvez en savoir plus dans ce guide à partir de Statistiques chez Leard.
On pourrait rencontrer l'une des trois mesures de corrélation. Chaque mesure définit différemment les relations entre les variables. Sa valeur est comprise entre -1 et +1 :
- -1 dénote une corrélation négative parfaite: Lorsqu'une corrélation a un coefficient de corrélation égal ou inférieur à -0,9, elle est déclarée fortement négative. C'est une indication que les données sont corrélées. Cependant, la variable x continue d'augmenter, tandis que la variable y continue de diminuer.
- 0 indique aucune connexion: Les variables sont considérées comme non corrélées si le coefficient de corrélation est supérieur à 0,01 mais inférieur à 0,1 puisqu'il n'existe pas de relation perceptible entre chaque variable. Ils sont indépendants les uns des autres.
- +1 dénote une corrélation positive parfaite: Lorsque le coefficient d'une corrélation se situe entre 0,9 et 1, elle est considérée comme très positive. Cela indique qu'il y a eu une augmentation dans les deux ensembles de variables.
La valeur la plus élevée d'un coefficient peut avoir été un coefficient de corrélation de 1. Lorsque la valeur de corrélation est de 1, cela implique que si vous deviez représenter graphiquement les données, elles seraient complètement alignées pour créer une ligne droite.
Si vous êtes encore un peu perdu, ne vous inquiétez pas. Nous expliquerons la syntaxe de la fonction CORREL puis plongerons dans quelques exemples concrets pour vous aider à mieux la comprendre. Comprendre les lignes de meilleur ajustement et comment créer des lignes de tendance dans Google Sheets vous aidera avec cela.
Syntaxe de la fonction CORREL dans Google Sheets
=CORREL(données_y, données_x)
Décomposons cela en ses parties et comprenons mieux ce que signifie chaque phrase :
- =CORREL: Il s'agit de la fonction Google Sheet qui détermine r, (le coefficient de corrélation produit-moment de Pearson de l'ensemble de données).
- data_y: Il s'agit du groupe de cellules contenant les données dépendantes ou de la plage de valeurs de ces cellules.
- données x: Il s'agit soit d'une référence vers le tableau de cellules avec les données indépendantes, soit de la plage de valeurs de ces cellules.
Si vous deviez représenter graphiquement les points de données, data_y serait l'axe Y et data_x l'axe X. Vous remarquerez qu'il existe deux manières différentes de saisir la plage de données. Une plage de cellules de référence ou une entrée de données directe dans la fonction sont des options.
Dans la plupart des cas, l'utilisation de la plage de cellules de référence est préférable. En effet, la feuille de calcul contient probablement déjà vos données. L'utilisation d'une plage de cellules de référence peut éviter une saisie excessive susceptible d'entraîner une erreur de l'utilisateur.
Exemples de fonctions CORREL dans Google Sheets
Voyons quelques exemples pour comprendre comment utiliser la fonction CORREL dans Google Sheets.
Exemple 1: une forte corrélation positive
Pour ce premier exemple, supposons que nous travaillions dans le secteur de l'immobilier. Dans la feuille de calcul ci-dessous, nous avons des partitions d'hectares de terrain que vous vendez et le nombre d'unités vendues des données de ces différents terrains dans votre feuille Google.
- Si vous suivez une feuille, vous commencerez par saisir les données des variables dans votre feuille de calcul, comme indiqué ci-dessous :
- Cliquez sur la cellule C2
- Taper =CORREL(
- Vous continuerez ensuite à taper data_y, qui dans notre cas, est la plage de cellules référencée A2: A6, puis entrez une virgule.
- Passez au type data_x, qui dans notre cas, est référencé comme B2:B6.
- Terminez par une parenthèse fermante, comme illustré ci-dessous :
- Enfin, appuyez sur Entrer pour renvoyer le coefficient de corrélation des deux données dans la cellule C2.
En utilisant l'exemple ci-dessus, vous avez obtenu un coefficient de corrélation de 0,90, ce qui est une forte corrélation positive puisque sa valeur se situe entre 0,9 et 1. Par conséquent, cela indique que lorsque y change, x change également d'une manière sensiblement comparable.
Vous trouverez ci-dessous une représentation de nos exemples de données sur un graphique en nuage de points XY. Comme vous pouvez le voir, la ligne de meilleur ajustement est proche des points de données sur le graphique, ce qui soutient l'idée que les chiffres sont fortement corrélés.
Vous pouvez en savoir plus sur créer des graphiques de dispersion XY dans Google Sheets dans notre autre article.
Exemple 2: une faible corrélation négative
Cette fois, nous utiliserons un exemple plus générique de "variable x et y" dans notre feuille de calcul. Nous avons délibérément inclus des chiffres pour démontrer une corrélation négative, ce que la fonction CORREL démontre ci-dessous :
Il n'y a pas de relation forte entre les variables y et x, donc le résultat que nous obtenons est un coefficient de corrélation moins significatif que dans l'exemple précédent. Le résultat que nous avons obtenu est de -0,47. Cela ne signifie toutefois pas qu'il n'y a aucune corrélation. Examinons à nouveau une ligne de meilleur ajustement pour lui donner un sens.
Comme vous pouvez le voir sur le nuage de points, les points de données sont plus éloignés de la ligne de meilleur ajustement. Il y a donc moins de corrélation que dans le premier exemple, mais pas aucune. Vous remarquerez également que la ligne de meilleur ajustement diminue. Cela montre une corrélation négative, une valeur diminue à mesure que l'autre augmente.
Exemple 3: Aucune connexion
Ici, nous avons un ensemble de nombres complètement aléatoires. Revenons rapidement sur la façon d'utiliser à nouveau la fonction CORREL :
- Tapez dans la cellule C2 la formule CORREL
- Nos arguments sont A2: A10 et B2:B10
- Appuyez sur Entrée
La valeur renvoyée sur C2 est 0,02. Si un coefficient de corrélation tombe entre 0,01 et 0,1, il est déterminé que les variables en question ne sont pas corrélées puisqu'il n'y a pas de lien perceptible entre elles. Les relations entre les variables sont entièrement indépendantes.
Ci-dessous, la représentation de la même chose sur un graphique en nuage de points. La ligne de meilleur ajustement est presque plate, indiquant une faible corrélation entre les deux ensembles de données.
Corrélez facilement vos données dans Google Sheets
La corrélation pourrait être un sujet difficile si vous n'y avez pas beaucoup travaillé au lycée. Ce guide couvre toutes les bases, mais vous devrez continuer à utiliser la fonction CORREL dans Google Sheets pour la garder fraîche dans votre esprit.
Il s'agit d'une fonction puissante car elle permet d'éviter de créer des graphiques en nuage de points et peut rapidement trouver des tendances dans vos données. Néanmoins, n'ayez pas peur d'ajouter des graphiques pour aider les autres utilisateurs à mieux comprendre les données de vos feuilles de calcul.