Lineaire regressie is een van de populairste statistische technieken.
Ondanks zijn populariteit is de interpretatie van de regressiecoëfficiënten van de eenvoudigste modellen soms, nou ja….moeilijk.
Daarom zullen we de coëfficiënten van een continue en een categorische variabele interpreteren. Hoewel het voorbeeld hier een lineair regressiemodel is, werkt de aanpak voor het interpreteren van coëfficiënten van elk regressiemodel zonder interacties, inclusief logistische en proportionele hazard-modellen.
Een lineair regressiemodel met twee voorspellende variabelen kan worden uitgedrukt met de volgende vergelijking:
Y = B0 + B1*X1 + B2*X2 + e.
De variabelen in het model zijn:
- Y, de responsvariabele;
- X1, de eerste voorspellende variabele;
- X2, de tweede voorspellende variabele; en
- e, de restfout, die een ongemeten variabele is.
De parameters in het model zijn:
- B0, de Y-intercept;
- B1, de eerste regressiecoëfficiënt; en
- B2, de tweede regressiecoëfficiënt.
Een voorbeeld is een model van de hoogte van een struik (Y) op basis van de hoeveelheid bacteriën in de grond (X1) en of de plant in de gedeeltelijke of volle zon staat (X2).
De hoogte wordt gemeten in cm, de bacteriën in duizend per ml grond, en het soort zon = 0 als de plant in de gedeeltelijke zon staat en het soort zon = 1 als de plant in de volle zon staat.
Laten we zeggen dat de regressievergelijking als volgt werd geschat:
Y = 42 + 2.3*X1 + 11*X2
Interpretatie van het intercept
B0, het Y-intercept, kan worden geïnterpreteerd als de waarde die je voor Y zou voorspellen als zowel X1 = 0 als X2 = 0.
We zouden een gemiddelde hoogte van 42 cm verwachten voor heesters in de gedeeltelijke zon zonder bacteriën in de grond. Dit is echter alleen een zinvolle interpretatie als het redelijk is dat zowel X1 als X2 0 kunnen zijn, en als de gegevensreeks ook werkelijk waarden voor X1 en X2 bevat die in de buurt van 0 liggen.
Als geen van deze voorwaarden waar is, dan heeft B0 eigenlijk geen zinvolle interpretatie. Hij verankert alleen de regressielijn op de juiste plaats. In ons geval is het gemakkelijk te zien dat X2 soms 0 is, maar als X1, ons bacterieniveau, nooit in de buurt van 0 komt, dan heeft ons intercept geen echte interpretatie.
Interpretatie van coëfficiënten van continue voorspellende variabelen
Omdat X1 een continue variabele is, vertegenwoordigt B1 het verschil in de voorspelde waarde van Y voor elk verschil van één eenheid in X1, als X2 constant blijft.
Dit betekent dat als X1 één eenheid verschilt (en X2 niet) Y gemiddeld met B1 eenheden verschilt.
In ons voorbeeld zouden struiken met een bacterietelling van 5000 gemiddeld 2.3 cm hoger zijn dan die met een bacterietelling van 4000/ml, die op hun beurt ongeveer 2,3 cm hoger zouden zijn dan die met bacteriën van 3000/ml, zolang ze maar in dezelfde soort zon staan.
(Vergeet niet dat, aangezien de bacterietelling werd gemeten in 1000 per ml grond, 1000 bacteriën één eenheid van X1 vertegenwoordigen).
Interpretatie van coëfficiënten van categorische voorspellende variabelen
Op vergelijkbare wijze wordt B2 geïnterpreteerd als het verschil in de voorspelde waarde in Y voor elk verschil van één eenheid in X2 als X1 constant blijft. Aangezien X2 echter een categorische variabele is die als 0 of 1 wordt gecodeerd, staat een verschil van één eenheid voor een overgang van de ene categorie naar de andere.
B2 is dan het gemiddelde verschil in Y tussen de categorie waarvoor X2 = 0 (de referentiegroep) en de categorie waarvoor X2 = 1 (de vergelijkingsgroep).
Vergeleken met heesters die in de gedeeltelijke zon staan, zouden we dus verwachten dat heesters in de volle zon gemiddeld 11 cm hoger zijn, bij hetzelfde niveau van bodembacteriën.
Coëfficiënten interpreteren als voorspellende variabelen gecorreleerd zijn
Vergeet niet dat elke coëfficiënt wordt beïnvloed door de andere variabelen in een regressiemodel. Omdat voorspellende variabelen bijna altijd samenhangen, kunnen twee of meer variabelen een deel van dezelfde variatie in Y verklaren.
Daarom meet elke coëfficiënt niet het totale effect op Y van zijn overeenkomstige variabele, zoals het zou doen als het de enige variabele in het model was.
Verder vertegenwoordigt elke coëfficiënt het extra effect van het toevoegen van die variabele aan het model, als de effecten van alle andere variabelen in het model al zijn verdisconteerd. (Dit wordt regressiecoëfficiënt type 3 genoemd en is de gebruikelijke manier om ze te berekenen. Niet alle software gebruikt echter Type 3-coëfficiënten, dus controleer de handleiding van uw software, zodat u weet wat u krijgt)
Dit betekent dat elke coëfficiënt verandert als andere variabelen aan het model worden toegevoegd of uit het model worden verwijderd.
Voor een bespreking van hoe je de coëfficiënten van modellen met interactietermen moet interpreteren, zie Interacties interpreteren in regressie.