woensdag 2 juni 2010

Gewogen data

Context
Je hebt je data gewogen, omwille van een overselectie van bepaalde kleine groepen of omwille van een onderselectie door een slecht design. Kan gebeuren.

Vraag
Wat voor analyses kan ik nog uitvoeren? Zal de weging mijn standaardfouten beïnvloeden? Zijn de coëfficiënten juist als ik niet weeg?

Antwoord
Ik heb mij slechts over twee methodes gebogen: regressies en chi²-toetsen. Mijn conclusie is dat wanneer een analyse zich op variantie baseert, wegen niet aanbevolen is. In het andere geval (chi²) wél. Even nuanceren:

Bij regressie hoef je niet te wegen: het gaat om het effect van één variabele op een andere. Weging zou eventueel outliers nadrukkelijker het effect laten bepalen, en dat kan gewenst zijn: er was immers een onderschatting van een bepaalde groep. Neem je echter de variabelen waarop de weging gebaseerd is in je model op als interactieterm, dan heb je net hetzelfde resultaat, een correcter model én juiste standaardfouten. Met andere woorden: wegen is over het algemeen af te raden.

Nadelen: misschien begrijp je niet veel meer van je coëfficiënten door alle interacties en het intercept only model geeft geen populatiegemiddelde (in het volledige model is het intercept een gecontrolleerd gemiddelde).

Chi² is een ander geval: het gaat hier om een eenvoudigere statistiek. Je vergelijkt verwachte en geobserveerde celpercentages. Die celpercentages zullen preciezer zijn bij een gestratificeerde steekproef. Maar dan moet je wegen, anders kloppen de percentages gewoonweg niet. Voor het aantal vrijheidsgraden gebruik je de ongewogen n (of de gewogen n als het gewicht een gemiddelde heeft van 1), of het aantal categorieën als de test dit vereist.

Wat t-testen betreft denk ik dat het onmogelijk is een correctie test uit te voeren: een t-test is niet anders dan een regressie waar niet voor andere variabelen gecontroleerd wordt. Dat is precies de voorwaarde om ongewogen data te mogen gebruiken. Je zou dus moeten wegen, maar dan verandert de variantie, die precies het betrouwbaarheidsinterval bepaalt. Stata heeft hiervoor speciale weegtechnieken.

Links
http://www.sociology.ohio-state.edu/ptv/faq/weights.htm
http://www.dcs.napier.ac.uk/peas/errors.htm