La régression linéaire est l’une des techniques statistiques les plus populaires.
Malgré sa popularité, l’interprétation des coefficients de régression de tout modèle, sauf les plus simples, est parfois, eh bien….difficile.
Interprétons donc les coefficients d’une variable continue et d’une variable catégorielle. Bien que l’exemple ici soit un modèle de régression linéaire, l’approche fonctionne pour interpréter les coefficients de tout modèle de régression sans interactions, y compris les modèles logistiques et à risques proportionnels.
Un modèle de régression linéaire avec deux variables prédictives peut être exprimé par l’équation suivante :
Y = B0 + B1*X1 + B2*X2 + e.
Les variables du modèle sont :
- Y, la variable réponse ;
- X1, la première variable prédictive ;
- X2, la deuxième variable prédictive ; et
- e, l’erreur résiduelle, qui est une variable non mesurée.
Les paramètres du modèle sont :
- B0, l’ordonnée à l’origine ;
- B1, le premier coefficient de régression ; et
- B2, le deuxième coefficient de régression.
Un exemple serait un modèle de la hauteur d’un arbuste (Y) basé sur la quantité de bactéries dans le sol (X1) et sur le fait que la plante est située en soleil partiel ou en plein soleil (X2).
La hauteur est mesurée en cm, les bactéries sont mesurées en milliers par ml de sol, et le type de soleil = 0 si la plante est en soleil partiel et le type de soleil = 1 si la plante est en plein soleil.
Disons qu’il s’est avéré que l’équation de régression a été estimée comme suit :
Y = 42 + 2.3*X1 + 11*X2
Interprétation de l’ordonnée à l’origine
B0, l’ordonnée à l’origine, peut être interprétée comme la valeur que vous prédiriez pour Y si X1 = 0 et X2 = 0.
Nous nous attendrions à une hauteur moyenne de 42 cm pour les arbustes en soleil partiel sans bactéries dans le sol. Cependant, cette interprétation n’a de sens que s’il est raisonnable que X1 et X2 puissent tous deux être égaux à 0, et si l’ensemble de données comprenait effectivement des valeurs pour X1 et X2 proches de 0.
Si aucune de ces conditions n’est vraie, alors B0 n’a vraiment aucune interprétation significative. Il ne fait qu’ancrer la ligne de régression au bon endroit. Dans notre cas, il est facile de voir que X2 est parfois égal à 0, mais si X1, notre niveau de bactéries, ne s’approche jamais de 0, alors notre ordonnée à l’origine n’a pas de réelle interprétation.
Interprétation des coefficients des variables prédicteurs continues
Puisque X1 est une variable continue, B1 représente la différence de la valeur prédite de Y pour chaque différence d’une unité de X1, si X2 reste constant.
Cela signifie que si X1 différait d’une unité (et que X2 ne différait pas) Y différera de B1 unités, en moyenne.
Dans notre exemple, les arbustes avec un nombre de bactéries de 5000 seraient, en moyenne, 2.3 cm plus grands que ceux avec un nombre de bactéries de 4000/ml, qui, de même, seraient environ 2,3 cm plus grands que ceux avec 3000/ml de bactéries, à condition qu’ils soient dans le même type de soleil.
(N’oubliez pas que, puisque le nombre de bactéries a été mesuré en 1000 par ml de sol, 1000 bactéries représentent une unité de X1).
Interprétation des coefficients des variables prédicteurs catégorielles
De même, B2 s’interprète comme la différence de la valeur prédite dans Y pour chaque différence d’une unité dans X2 si X1 reste constant. Cependant, comme X2 est une variable catégorielle codée 0 ou 1, une différence d’une unité représente le passage d’une catégorie à l’autre.
B2 est alors la différence moyenne en Y entre la catégorie pour laquelle X2 = 0 (le groupe de référence) et la catégorie pour laquelle X2 = 1 (le groupe témoin).
Donc, par rapport aux arbustes qui étaient en plein soleil, on s’attendrait à ce que les arbustes en plein soleil soient plus grands de 11 cm, en moyenne, au même niveau de bactéries du sol.
Interpréter les coefficients lorsque les variables prédicteurs sont corrélées
N’oubliez pas que chaque coefficient est influencé par les autres variables d’un modèle de régression. Comme les variables prédicteurs sont presque toujours associées, deux variables ou plus peuvent expliquer une partie de la même variation de Y.
Par conséquent, chaque coefficient ne mesure pas l’effet total sur Y de sa variable correspondante, comme ce serait le cas si elle était la seule variable du modèle.
Au contraire, chaque coefficient représente l’effet supplémentaire de l’ajout de cette variable au modèle, si les effets de toutes les autres variables du modèle sont déjà pris en compte. (C’est ce qu’on appelle les coefficients de régression de type 3 et c’est la façon habituelle de les calculer. Cependant, tous les logiciels n’utilisent pas des coefficients de type 3, alors assurez-vous de vérifier le manuel de votre logiciel pour savoir ce que vous obtenez).
Cela signifie que chaque coefficient changera lorsque d’autres variables seront ajoutées ou supprimées du modèle.
Pour une discussion sur la façon d’interpréter les coefficients des modèles avec des termes d’interaction, voir Interpréter les interactions dans la régression.
.