Le carré R est le plus important d’entre eux, donc nous pouvons commencer par l’examiner. Plus précisément, nous devrions examiner le R² ajusté dans notre cas, car nous avons plus d’une variable X. Il nous donne une idée de l’ensemble des résultats. Il nous donne une idée de la qualité globale de l’ajustement.
Un R carré ajusté de 0,98 signifie que notre modèle de régression peut expliquer environ 98 % de la variation de la variable dépendante Y (PIB) autour de la valeur moyenne des observations (la moyenne de notre échantillon). En d’autres termes, 98 % de la variabilité de ŷ (y-hat, les prédictions de notre variable dépendante) est capturée par notre modèle. Une valeur aussi élevée indique généralement que notre modèle pourrait présenter un problème. Nous allons continuer avec notre modèle, mais un R Squared trop élevé peut être problématique dans un scénario de la vie réelle. Je vous suggère de lire cet article sur Statistics by Jim, pour apprendre pourquoi trop bon n’est pas toujours bon en termes de R Carré.
L’erreur standard nous donne une estimation de l’écart type de l’erreur (résidus). En général, si le coefficient est important par rapport à l’erreur standard, il est probablement statistiquement significatif.
Analyse de la variance (ANOVA)
La section Analyse de la variance est quelque chose que nous sautons souvent lors de la modélisation de la régression. Cependant, elle peut fournir des informations précieuses, et cela vaut la peine d’y jeter un coup d’œil. Vous pouvez en savoir plus sur l’exécution d’un test ANOVA et voir un exemple de modèle dans notre article dédié.
Ce tableau nous donne un test global de signification sur les paramètres de régression.
La colonne F du tableau ANOVA nous donne le test F global de l’hypothèse nulle selon laquelle tous les coefficients sont égaux à zéro. L’hypothèse alternative est qu’au moins un des coefficients n’est pas égal à zéro. La colonne F de signification nous indique la valeur p du test F. Comme elle est inférieure au niveau de signification, la valeur p est inférieure à la valeur du test. Comme elle est inférieure au niveau de signification de 0,05 (au niveau de confiance choisi de 95 %), nous pouvons rejeter l’hypothèse nulle, à savoir que tous les coefficients sont égaux à zéro. Cela signifie que nos paramètres de régression ne sont conjointement pas statistiquement insignifiants.
Vous pouvez en savoir plus sur les tests d’hypothèse dans notre article dédié.
Le tableau suivant nous donne des informations sur les coefficients de notre modèle de régression multiple et constitue la partie la plus passionnante de l’analyse.
Nous avons ici de nombreux détails pour l’intercept et chacune de nos prédicteurs (variables indépendantes). Explorons ce que représentent ces colonnes :
- Coefficients – ce sont des estimations dérivées par la méthode des moindres carrés;
- Erreur standard – l’écart type des estimations des moindres carrés ;
- T-Stat – il s’agit de la statistique t pour l’hypothèse nulle que le coefficient est égal à zéro, par rapport à l’hypothèse alternative qu’il est différent de zéro;
- La valeur P pour le test t;
- Les 95% inférieur et supérieur définissent l’intervalle de confiance pour les coefficients.
Test de signification statistique
C’est le test d’une hypothèse nulle affirmant que le coefficient a une pente de zéro. Nous pouvons regarder les valeurs p pour chaque coefficient et les comparer au niveau de signification de 0,05.
Si notre valeur p est inférieure au niveau de signification, cela signifie que notre variable indépendante est statistiquement significative pour le modèle. En examinant nos prédicteurs X1 à X3, nous remarquons que seul X3 Rémunération des employés a une valeur p inférieure à 0,05, ce qui signifie que X1 Dépenses d’éducation et X2 Taux de chômage ne semblent pas être statistiquement significatifs pour notre modèle de régression.
Comme nous ne pouvons pas rejeter l’hypothèse nulle (que les coefficients sont égaux à zéro), nous pouvons éliminer X1 et X2 du modèle. Nous pouvons également le confirmer car la valeur zéro se situe entre les intervalles de confiance inférieur et supérieur.
Nous pouvons décider d’exécuter le modèle sans les variables X1 et X2 et évaluer si cela entraîne une baisse significative de la mesure du R carré ajusté. Si ce n’est pas le cas, alors il est sûr de laisser tomber X1 et X2 du modèle de régression.
Si nous faisons cela, nous obtenons les statistiques de régression suivantes.
Nous pouvons voir qu’il n’y a pas de baisse du R Square, donc nous pouvons en toute sécurité supprimer X1 et X2 de notre modèle et le simplifier à une seule régression linéaire.
Sortie résiduelle
Les résidus donnent des informations sur la mesure dans laquelle les points de données réels (y) s’écartent des points de données prédits (ŷ), sur la base de notre modèle de régression.