donderdag 25 november 2010
donderdag 18 november 2010
Error bars en error area
Zoals iedereen weet is Stata fantastisch. Soms moet je het een en ander wel wat forceren, zoals error bars en areas. Drie links:
dinsdag 9 november 2010
Pearson correlatie: interpretatie en statistische intuïtie
Update 30 december 2014
"Hoe moeten we dit nu interpreteren?" - Het is een terechte vraag bij elke parameter die je voorlegt en dus zeker bij de onvermijdelijke Pearson correlatiecoëfficiënt. Deze geeft weer hoe sterk variabelen samenhangen. Het teken toont in welke richting. Zo'n simpele correlatie zal je typisch gebruiken bij een exploratieve analyse. Het is ook een belangrijke bouwsteen van allerhande regressieanalyses, factoranalyses, en SEM-modellen. Een tussenstap tussen eenvoudige correlaties en deze technieken zijn de (semi)partiële correlaties, waar je abstractie maakt van bepaalde andere variabelen die een effect mediëren.
Niemand kan echter precies zeggen hoe je dit cijfer, dat tussen -1 en 1 ligt, moet interpreteren. Het is een uitdrukking van de sterkte van een lineair verband meet. Plot de variabelen op een assenstelsel, en je zou een puntenwolk moeten zien waar zich een rechte lijn in aftekent. Kwadrateer je de correlatie, dan krijg je te zien hoeveel procent van de totale variantie door die rechte lijn wordt gevat. Dat is de technische interpretatie, maar meestal kwadrateren we niet. We hanteren in de plaats een vuistregel die sterk varieert van discipline tot discipline - geneeskundige statistiek, sociometrie, psychometrie of econometrie. In de handboeken zeilt men ook liever om de interpretatie heen. Mijn interpretatie (in sociologie & arbeidseconomie) is dit:
Maak een dataset voor 37 eenheden die elk 10 keer geobserveerd worden (dus 370 observaties in totaal, voor de snelle rekenaar). Eén maat is random veranderlijk over alle observaties, de andere is het gemiddelde per eenheid. We kunnen enige correlatie verwachten, want de twee variabelen zijn niet onafhankelijk, maar voor elke eenheid zijn er ongeveer evenveel cases onder als boven het gemiddelde, wat de correlatie laag zou moeten houden.
Welnu, de Pearson correlatie tussen de veranderlijke en haar gemiddeldes is - met de random getallen die ik verkreeg - 0.9974. Onze statistische intuïtie is duidelijk feilbaar.
"Hoe moeten we dit nu interpreteren?" - Het is een terechte vraag bij elke parameter die je voorlegt en dus zeker bij de onvermijdelijke Pearson correlatiecoëfficiënt. Deze geeft weer hoe sterk variabelen samenhangen. Het teken toont in welke richting. Zo'n simpele correlatie zal je typisch gebruiken bij een exploratieve analyse. Het is ook een belangrijke bouwsteen van allerhande regressieanalyses, factoranalyses, en SEM-modellen. Een tussenstap tussen eenvoudige correlaties en deze technieken zijn de (semi)partiële correlaties, waar je abstractie maakt van bepaalde andere variabelen die een effect mediëren.
Niemand kan echter precies zeggen hoe je dit cijfer, dat tussen -1 en 1 ligt, moet interpreteren. Het is een uitdrukking van de sterkte van een lineair verband meet. Plot de variabelen op een assenstelsel, en je zou een puntenwolk moeten zien waar zich een rechte lijn in aftekent. Kwadrateer je de correlatie, dan krijg je te zien hoeveel procent van de totale variantie door die rechte lijn wordt gevat. Dat is de technische interpretatie, maar meestal kwadrateren we niet. We hanteren in de plaats een vuistregel die sterk varieert van discipline tot discipline - geneeskundige statistiek, sociometrie, psychometrie of econometrie. In de handboeken zeilt men ook liever om de interpretatie heen. Mijn interpretatie (in sociologie & arbeidseconomie) is dit:
- r < .10: geen verband
- r < .30: zwak verband
- r < .50: matig verband
- r < .80: sterk verband
- r > .80: zeer sterk verband
Een experiment
Als alle punten van de puntenwolk exact op een rechte lijn liggen, dan is de correlatie perfect (r = 1). Hoge correlaties krijg je echter ook bij verbanden die helemaal niet zo sterk zijn, dus laat je niet misleiden. Hier een klein experiment dat je in Excel kan doen:Maak een dataset voor 37 eenheden die elk 10 keer geobserveerd worden (dus 370 observaties in totaal, voor de snelle rekenaar). Eén maat is random veranderlijk over alle observaties, de andere is het gemiddelde per eenheid. We kunnen enige correlatie verwachten, want de twee variabelen zijn niet onafhankelijk, maar voor elke eenheid zijn er ongeveer evenveel cases onder als boven het gemiddelde, wat de correlatie laag zou moeten houden.
Welnu, de Pearson correlatie tussen de veranderlijke en haar gemiddeldes is - met de random getallen die ik verkreeg - 0.9974. Onze statistische intuïtie is duidelijk feilbaar.
Kladblok voor gevorderden
Vroeger was ik fan van Crimson Editor, maar aangezien de ontwikkeling is stopgezet, ging ik verder met Notepad ++.
Voordelen
Voordelen
- Geen tekstopmaak, dus geen nutteloze markup. Zeer nuttig bij het copy-pasten uit websites.
- 'Mono(space)' of 'console'-lettertypes voor een vaste letterafstand
- Syntax highlighting voor statistische programma's (soms moet je een plugin inladen)
- Verticaal tekst selecteren (kolommen)
- Gratis
Abonneren op:
Posts (Atom)