donderdag 15 oktober 2009

Squared R voor ML-analyses

Om de een of andere reden is het voor statistische software moeilijk of onmogelijk om de determinatiecoëfficiënt R² te berekenen bij analyses die niet gebaseerd zijn op een OLS-schatting.

Nochtans is dit eigenlijk niet zo moeilijk. R² is immers het kwadraat van de multiple correlatiecoëfficient R, en dit is de correlatie tussen de verwachte waarde en de geobserveerde waarde.

Zolang software je toelaat om bij een analyse een nieuwe vector met de 'predicted value' aan te maken, kun je dus zelf de Squared R berekenen.

R² = corr(pred,obs)²

Ter info: R² geeft aan welk deel van de variantie verklaard wordt door het model. Een reden waarom deze parameter enkel bij OLS-schattingen gegeven wordt is allicht dat OLS-schattingen deze verklaring maximaliseren (soms met vertekeningen van de effecten of de fout daarrond als kostprijs). Zoals ik al heb geschreven is de GENLIN proc in SPSS handiger dan REGRESSION, en geven ML-schattingen onder bepaalde assumpties exact dezelfde schattingen als OLS-schattingen, zodat bovenstaande werkwijze niet onverantwoord is. Vergeet verder niet dat R² een slechte toets is voor de kwaliteit van het model. Immers: R² zal NOOIT dalen bij wanneer extra verklarende variabelen toegevoegd worden. Nochtans peuzel je dan vrijheidsgraden op en kun je alle mogelijke problemen (vb. multicollineariteit, endogeniteit) gaan verwachten.