maandag 11 februari 2013

Algoritme voor een longitudinale, representatieve steekproef

Nemen we twee types steekproeven:
  • Longitudinaal: steekproef in jaar t, eenheden opgevolgd door de tijd
  • Cross-sectioneel: steekproef in jaar t, steekproef in jaar t+1, t+2, ...
Men zou denken dat deze benaderingen onverzoenbaar zijn. Nochtans is er een algoritme dat toelaat steeds representatief te blijven, én over longitudinale gegevens te beschikken.

Dit voorbeeld kan toegepast worden op de selectie van werknemers, waar de populatie afhankelijk is van de werkloosheid.

Jaar t
Men neemt een steekproef, bijvoorbeeld 25% van de populatie.

Jaar t+1
Er is uitstroom uit de populatie. Dit is geen probleem: aangezien de steekproef aselect is verwachten we dat de sample een gelijke uitstroom heeft. We behouden eenvoudigweg de cases uit jaar t.
Er is ook instroom. Hieruit moeten we opnieuw 25% gaan selecteren.

Jaar t+2
Uitstroom en instroom zullen zich telkens herhalen zoals in jaar t+1.
Er is ook herinstroom in de populatie. Dit betekent voor onze steekproef dat we alle ooit geselecteerde eenheden moeten opvolgen, en opnieuw opnemen als ze terug in de populatie komen. Zij blijven namelijk altijd 25% van het gelijkaardig segment (de herinstroom) vertegenwoordigen. De steekproef blijft dus representatief.