In een eerder artikel hebben we de lineaire regressieanalyse en de toepassing ervan in financiële analyse en modellering onderzocht. U kunt ons artikel over Regressieanalyse in financiële modellering lezen om meer inzicht te krijgen in de statistische concepten die in de methode worden gebruikt en waar deze wordt toegepast binnen de financiële wereld.
Dit artikel zal een praktische blik werpen op het modelleren van een Meervoudig Regressiemodel voor het Bruto Binnenlands Product (BBP) van een land.
Voordat ik begin, wil ik een korte disclaimer toevoegen. Ik ben geen statisticus, en ik beweer niet dat de gekozen afhankelijke en onafhankelijke variabelen de juiste analysekeuzes zijn. Het artikel is bedoeld om u te laten zien hoe u meervoudige regressie in Excel uitvoert en de output interpreteert, niet om u te leren hoe u onze modelaannames opstelt en de meest geschikte variabelen kiest.
Nu we dit uit de weg hebben en de verwachtingen zijn vastgesteld, laten we Excel openen en aan de slag gaan.
Wij halen voor deze exercitie openbare gegevens uit Eurostat, de statistische database van de Europese Commissie. Alle relevante brongegevens zijn voor uw gemak opgenomen in het modelbestand, dat u hieronder kunt downloaden. Ik heb ook de links naar de brontabellen bewaard, zodat u die desgewenst verder kunt onderzoeken.
De EU-dataset geeft ons informatie voor alle lidstaten van de Unie. Als grote fan van Agatha Christie’s Hercule Poirot, richten we onze aandacht op België.
Zoals u in de tabel hieronder kunt zien, hebben we negentien waarnemingen van onze doelvariabele (BBP), evenals onze drie voorspellende variabelen:
- X1 – Onderwijsuitgaven in mln.
- X2 – Werkloosheidspercentage als % van de beroepsbevolking;
- X3 – Beloning van werknemers in milj.
Nog voordat we ons regressiemodel hebben uitgevoerd, zien we een aantal afhankelijkheden in onze gegevens. Als we naar de ontwikkeling over de perioden kijken, kunnen we aannemen dat het BBP samen met de uitgaven aan onderwijs en de beloning van werknemers toeneemt.
Een meervoudige lineaire regressie uitvoeren
Er zijn manieren om alle relevante statistieken in Excel te berekenen met behulp van formules. Maar het is veel eenvoudiger met het hulppakket Gegevensanalyse, dat u kunt inschakelen vanaf het tabblad Ontwikkelaar -> Excel invoegtoepassingen.
Kijk naar het tabblad Gegevens, en aan de rechterkant ziet u het hulpprogramma Gegevensanalyse binnen het gedeelte Analyseren.
Uitvoeren en kies Regressie uit alle opties. Merk op dat we hetzelfde menu gebruiken voor zowel eenvoudige (enkelvoudige) als meervoudige lineaire regressiemodellen.
Nu is het tijd om enkele bereiken en instellingen in te stellen.
Het Y-bereik zal onze afhankelijke variabele, het BBP, bevatten. En in het X-bereik selecteren we alle kolommen van de X-variabele. Merk op dat dit hetzelfde is als het uitvoeren van een enkele lineaire regressie, met als enige verschil dat we meerdere kolommen kiezen voor het X-bereik.
Bedenk dat Excel vereist dat alle X-variabelen in aangrenzende kolommen staan.
Zoals ik de kolom Titels heb geselecteerd, is het van cruciaal belang het selectievakje voor Labels aan te vinken. Een betrouwbaarheidsinterval van 95% is geschikt in de meeste financiële analysescenario’s, dus we zullen dit niet veranderen.
U kunt vervolgens overwegen de gegevens op hetzelfde blad of een nieuw blad te plaatsen. Een nieuw werkblad werkt meestal het beste, omdat de tool nogal wat gegevens invoegt.
Ik zal ook alle extra opties onderaan aanvinken. Ik gebruik ze uiteindelijk zelden allemaal, maar het is gemakkelijker om de opties die we niet nodig hebben te verwijderen dan alles opnieuw te doen.
Teken in op onze nieuwsbrief voor een GRATIS Excel Benchmark Analyse Sjabloon
Evaluatie van de regressieresultaten
Nu we onze samenvattende output van Excel hebben, gaan we ons regressiemodel verder onderzoeken.
De informatie die wij uit de gegevensanalysemodule van Excel hebben gehaald, begint met de regressiestatistieken.
R-kwadraat is het belangrijkst van allemaal, dus we kunnen beginnen met er naar te kijken. In ons geval moeten we met name kijken naar het aangepaste R-kwadraat, omdat we meer dan één X-variabele hebben. Het geeft ons een idee van de algemene goedheid van de fit.
Een adjusted R Square van 0,98 betekent dat ons regressiemodel ongeveer 98% van de variatie van de afhankelijke variabele Y (BBP) rond de gemiddelde waarde van de waarnemingen (het gemiddelde van onze steekproef) kan verklaren. Met andere woorden, 98% van de variabiliteit in ŷ (y-hat, onze afhankelijke variabele voorspellingen) wordt door ons model opgevangen. Zo’n hoge waarde zou er gewoonlijk op wijzen dat er een probleem zou kunnen zijn met ons model. We gaan door met ons model, maar een te hoge R kwadraat kan problematisch zijn in een real-life scenario. Ik stel voor dat je dit artikel over Statistiek van Jim leest, om te leren waarom te goed niet altijd goed is in termen van R kwadraat.
De Standaardafwijking geeft ons een schatting van de standaardafwijking van de fout (residuen). In het algemeen geldt dat als de coëfficiënt groot is in vergelijking met de standaardfout, deze waarschijnlijk statistisch significant is.
Analysis of Variance (ANOVA)
Het gedeelte Analyse van variantie is iets dat we vaak overslaan bij het modelleren van regressie. Het kan echter waardevolle inzichten opleveren, en het is de moeite waard om er eens naar te kijken. U kunt meer lezen over het uitvoeren van een ANOVA-test en een voorbeeldmodel bekijken in ons speciale artikel.
Deze tabel geeft ons een algemene significantietest voor de regressieparameters.
De F-kolom van de ANOVA-tabel geeft ons de algemene F-test voor de nulhypothese dat alle coëfficiënten gelijk zijn aan nul. De alternatieve hypothese is dat ten minste een van de coëfficiënten niet gelijk is aan nul. De kolom Significantie F toont ons de p-waarde voor de F-test. Aangezien deze lager is dan het significantieniveau van 0,05 (bij het door ons gekozen betrouwbaarheidsniveau van 95%), kunnen wij de nulhypothese, dat alle coëfficiënten gelijk zijn aan nul, verwerpen. Dit betekent dat onze regressieparameters gezamenlijk niet statistisch insignificant zijn.
U kunt meer lezen over hypothesetoetsing in ons speciale artikel.
De volgende tabel geeft ons informatie over de coëfficiënten in ons Meervoudige Regressiemodel en is het spannendste deel van de analyse.