Hoe groot moet een steekproef zijn om een vooropgesteld betrouwbaarheidsinterval te halen?
Enfin, daarop had ik het antwoord wel, via de simpele regel
CI = +/- t * SE
SE = ( s² / (n-1) )
... voor een betrouwbaarheidsinterval rond een populatiegemiddelde.
Maar willen we de eigenschappen van een regressie, namelijk de predictie van bepaalde waarden voor groepen die misschien niet eens bestaan, benutten, dan werd dit onduidelijk. Welke n gaan we gebruiken als we het loon van een 40,5 jarige willen voorspellen, terwijl geen enkele 40,5 jarige in de steekproef voorkomt? Meer algemeen: hoe kunnen we een betrouwbaarheidsinterval berekenen rond een conditioneel gemiddelde?
Het goede nieuws: het is mogelijk. Het slechte nieuws: het is niet eenvoudig. We geven hier de werkwijze voor een betrouwbaarheidsinterval voor een OLS-schatting van een conditioneel gemiddelde.
Om te beginnen is een conditioneel gemiddelde altijd conditioneel op alle variabelen in de regressie. Zelfs al veronderstel je slechts dat één variabele vastgelegd wordt op een bepaalde waarde, dan nog zijn alle andere waarden vastgelegd op hun gemiddelde. Dit is belangrijk bij het lezen van de formule.
Het conditioneel gemiddelde wordt uiteraard gewoon berekend door de functie in te vullen. Laten we zeggen dat er K variabelen zijn. Het betrouwbaarheidsinterval wordt gegeven door:
CI = t*SE
SE = X' VARCOVAR_b X
X' X is de kwadratenmatrix met de veronderstelde waarden op de K variabelen. De resulterende dimensie is 1*1 (uit 1*K * K*1).
VARCOVAR_b is de variantie-covariantiematrix (K*K) van de geschatte regressiecoëfficiënten op K variabelen. Deze matrix kan opgevraagd worden via software. Hoe de variantie van een coëfficiënt op basis van één run berekend wordt, is mij een raadsel, maar in zekere zin wordt de steekproevenverdeling van de coëfficiënt gezocht en speelt de steekproefgrootte daarbij een rol. Dat kan niet anders, want de SE moet kleiner worden bij een grotere steekproef. Stel dat n^(-1) kan afgezonderd worden uit VARCOVAR_b. In dat geval moet de grootte van n om een bepaalde CI te halen afgeleid worden uit:
- De waarden die het gemiddelde op de functie bepaalden
- De variantie & covariantie van de regressiecoëfficiënten
Conclusie
- Een conditioneel gemiddelde is een nuttige schatting met een kleiner betrouwbaarheidsinterval dan het betrouwbaarheidsinterval rond een populatiegemiddelde dat op relatief weinig cases gebaseerd is.
- Meer variabelen zorgen meestal voor meer variatie. Ik weet niet of dit noodzakelijk zo is. De varcovar matrix kan immers ook negatieve cellen hebben of ongecorreleerde regressiecoëfficiënten.
- Een steekproefgrootte vooropstellen die aangewezen is voor een conditioneel gemiddelde, is moeilijk. Voldoende cases voor elke waarde van een onafhankelijke waarde is echter nuttig om de variantie rond de schatter van haar effect te minimaliseren (vermijden van outliers).
Context
Algemene vraag in verband met de implementatie van een loontool.