maandag 30 november 2009

Verklaringsschema loonkloof

Verklaringsmodellen voor de loonkloof geven zelden de keten van relaties aan. Alle verklarende variabelen worden op één niveau ondergebracht.

In onderstaand schema heb ik geprobeerd om een model te schetsen dat zich zou moeten lenen tot een betere operationalisatie van de (latente) concepten. Het kan een aanzet zijn naar pad modellering.

Context
Project loonvorming. Er zijn schema's, maar eerder als denkkader dan als analytisch model.

donderdag 26 november 2009

Multilevel design voor de loonkloof

Vraagstelling

We willen weten of de loonkloof
  • Een algemene trend is
  • Een probleem van 'discriminerende' of 'onevenwichtige' bedrijven is
  • Een structureel probleem van sectoren of paritaire comités is
Hiervoor zijn twee aspecten van belang:
  • Een variantie-analyse tussen de niveaus
  • Het verklaren van de variantie op elk niveau
Het is mogelijk dat de verklaring van de variantie op één niveau, de variantie op een lagerliggend niveau gaat verklaren. Ik weet niet precies waarom en in welke mate.


Data

In  principe willen we hiërarchisch geclusterde data:
  • Werknemer
    • Bedrijf
      • Sector
      • Paritair Comité
De selectie van de data gebeurt steekproefgewijs. In een normale regressie is de representativiteit niet belangrijk wanneer er voldoende cases zijn om de leverage van outliers te beperken en voldoende variabelen die spurieuze effecten uitsluiten. Een representatieve steekproef kan zelfs heel slecht zijn wat dat betreft: stel dat de ene case die we dan toch hebben voor een bepaalde categorie net een uitzondering was die om onvoorspelbare reden afwijkt van de trend ... dan ben je gezien.


Anderzijds kunnen we niet alle data opvragen, en in een drielevelmodel vrees ik trouwens dat te veel data ongezond is. Hiërarchische model worden immers via maximum likelihood (of REML) geschat, door de coëfficiënten incrementeel aan te passen tot de maximale likelihood bereikt wordt. Dat betekent dat dezelfde analyse soms 5 keer, en soms 100 keer wordt overgedaan.


Wat is nu de impact van de dataselectie? Om te beginnen zal het intercept vertekend zijn. Het intercept is immers gewoon het gemiddelde van de steekproef in een model zonder determinanten. Is de steekproef niet representatief, dan neigt dit gemiddelde eerder naar de grootste groep in de steekproef. Voegen we gender toe als determinant, dan controleren we het intercept voor gender, maar niet voor alle andere effecten (vb. ondernemingsgrootte, functieniveau, ... ).

Is er vertekening op het effect van gender? Dat is mogelijk, want het effect van gender is het verschil tussen het populatiegemiddelde van mannen en vrouwen, en dit is op dezelfde manier vertekend als het intercept. Als de mannen en vrouwen niet willekeurig geselecteerd zijn, dan zijn hun populatiegemiddelde beïnvloedt door de groepen waar ze dominant in vertegenwoordigd zijn.

Stel dat twee sectoren A en B elk de helft van de tewerkstelling voor hun rekening nemen, die gelijk verdeeld is over mannen en vrouwen en met een loonkloof van 0 percent. Sector A heeft een hoger loon dan sector B. In sector A zijn alle arbeiders vrouwen en alle vrouwen arbeider. In sector B zijn alle vrouwen bediende, en alle bedienden vrouwen. Er is geen verschil in loon binnen een sector. Nemen we nu een steekproef die enkel uit bedienden bestaat, dan zullen vrouwen dominant (zelfs uitsluitend) uit sector B komen. Hun loon zal lager zijn dan het gemiddelde loon voor vrouwen. Voor mannen geldt exact hetzelfde. Er is eigenlijk geen loonkloof, behalve naar statuut, en willen we nu net daarop geselecteerd hebben. Omdat we soms niet weten dat we op een dergelijke variabele selecteren, moeten we opletten met het oververtegenwoordigen van bepaalde groepen. In sommige situaties is dit echter toch nuttig om de fout rond de schatter te verkleinen. Dit is verantwoord omdat de variabele zelf als determinant wordt opgenomen.

Analyse


De vergelijkingen op elk level zijn:
  1. W = I + A*Gender
  2. A = B + bedrijfskenmerken
  3. B = C + sectorkenmerken/kenmerken sociaal overleg
Als de variantie rond A niet significant is, is het persoonsniveau het belangrijkste. Het effect van gender kan dan wegverklaard worden door andere variabelen op level 1. Is de variantie rond A significant, dan moeten we die proberen weg te verklaren door bedrijfskenmerken. Blijft er nog significante variantie over, dan moet nagegaan worden of dit niet vooral tussengroepsvariantie is tussen clusters van bedrijven in een sector. Dit is het derde niveau.


Er zijn dus altijd twee verklaringen voor een genderdifferentie:
  • Een schijneffect, dat verdwijnt wanneer de echte variabelen in het model worden opgenomen
  • Een reëel effect, waarop we kunnen regresseren
Het verschil is misschien op het eerste zicht niet erg duidelijk. Toch is het van belang: schijneffecten nemen (met uitzondering van suppressie), het effect van gender weg. Bij multilevelinteractie-effecten blijft het effect van gender zelfs na controle bestaan. We komen alleen de omstandigheden te weten wanneer dit effect sterker of zwakker is.


Besluit


Een multileveldesign kan ons leren op welk niveau de loondrift tot stand komt. Dit perspectief is niet eerder aangeboord, of toch niet algemeen bekend. Als framework voor verder onderzoek is dit zeker interessant. Het biedt de mogelijkheid om verklaringsmodellen op te stellen waarbij good practices kunnen ingebouwd worden. De vraag is nu of die good practices op het niveau van de bedrijven gevormd worden, of er anderzijds een controlerend effect is van de sector of het paritair comité.


Te verwachten complicaties zijn de volgende
  • De vraag of er voldoende cases zijn: hierbij is het aantal cases op elk niveau van belang. Er zijn geen wetenschappelijke afleidingen die een norm vooropstellen. Meestal gebruikt men de vuistregel dat er zo'n twintig cases op elk niveau moeten zijn.
  • Het probleem van imperfecte hiërarchische clustering: één bedrijf kan werknemers onder meerdere paritaire comités hebben. Dit is bijna per definitie het geval met arbeiders en bedienden. Door de bedrijven op te splitsen naar arbeiders en bedienden, plaatsen we een variabele van het persoonlijke niveau op het tweede level. De implicaties hiervan moeten onderzocht worden.
  • Het probleem van jobmobiliteit: eenzelfde individu kan meerdere keren in de data voorkomen, met verschillende jobs (in hetzelfde kwartaal / op hetzelfde moment). Als de individuele kenmerken de loonkloof verklaren, zullen deze meermaals verrekend worden, wat de standaardfout valselijk verkleint. 
  • De subselectie van werknemers binnen een bedrijf of bedrijven binnen een sector of paritair comité, zou een bron kunnen zijn van selectiviteit. Neemt men ten andere een fractie van de bedrijven of een fractie van de werknemers, en de bedrijven waartoe deze behoren (m.a.w. een gewogen selectie van de bedrijven volgens hun aandeel in de tewerkstelling).




Het is in mijn ogen van belang om naast deze technische aspecten ook de vraag te stellen naar het analytische model: wàt willen we verklaren. Dé loonkloof verklaren op àlle niveau lijkt mij overambitieus. Het model moet eerst nog bewijzen bruikbaar te zijn voor dit soort analyses. Ik schat in dat dit het geval zal zijn, maar men moet eerst leren lopen voor men kan fietsen: stap 1, de variantie-analyse, lijkt mij de basis te leggen voor een verdere invullen van het model. Dit betekent dan ook dat er minder tijd gestopt moet worden in verklarende variabelen. Ik voorspel dat dit zal indruisen tegen de nieuwsgierigheid van de onderzoeker, maar zou geneigd zijn vast te houden aan een cumulatief onderzoeksplan.


Context


Voorbereiding data aanvraag bij administratieve overheden voor een project rond de loonkloof. Mijn ongevraagde opinie.

woensdag 25 november 2009

Betrouwbaarheidsintervallen rond een conditioneel gemiddelde

Na vruchteloos gegoogel moest ik opnieuw de onderburen wakkerschudden voor volgende vraag:

Hoe groot moet een steekproef zijn om een vooropgesteld betrouwbaarheidsinterval te halen?

Enfin, daarop had ik het antwoord wel, via de simpele regel

CI = +/- t * SE
SE = ( s² / (n-1) )

... voor een betrouwbaarheidsinterval rond een populatiegemiddelde.

Maar willen we de eigenschappen van een regressie, namelijk de predictie van bepaalde waarden voor groepen die misschien niet eens bestaan, benutten, dan werd dit onduidelijk. Welke n gaan we gebruiken als we het loon van een 40,5 jarige willen voorspellen, terwijl geen enkele 40,5 jarige in de steekproef voorkomt? Meer algemeen: hoe kunnen we een betrouwbaarheidsinterval berekenen rond een conditioneel gemiddelde?

Het goede nieuws: het is mogelijk. Het slechte nieuws: het is niet eenvoudig. We geven hier de werkwijze voor een betrouwbaarheidsinterval voor een OLS-schatting van een conditioneel gemiddelde.

Om te beginnen is een conditioneel gemiddelde altijd conditioneel op alle variabelen in de regressie. Zelfs al veronderstel je slechts dat één variabele vastgelegd wordt op een bepaalde waarde, dan nog zijn alle andere waarden vastgelegd op hun gemiddelde. Dit is belangrijk bij het lezen van de formule.

Het conditioneel gemiddelde wordt uiteraard gewoon berekend door de functie in te vullen. Laten we zeggen dat er K variabelen zijn. Het betrouwbaarheidsinterval wordt gegeven door:

CI = t*SE
SE = X' VARCOVAR_b X

X' X is de kwadratenmatrix met de veronderstelde waarden op de K variabelen. De resulterende dimensie is 1*1 (uit 1*K * K*1).

VARCOVAR_b is de variantie-covariantiematrix (K*K) van de geschatte regressiecoëfficiënten op K variabelen. Deze matrix kan opgevraagd worden via software. Hoe de variantie van een coëfficiënt op basis van één run berekend wordt, is mij een raadsel, maar in zekere zin wordt de steekproevenverdeling van de coëfficiënt gezocht en speelt de steekproefgrootte daarbij een rol. Dat kan niet anders, want de SE moet kleiner worden bij een grotere steekproef. Stel dat n^(-1) kan afgezonderd worden uit VARCOVAR_b. In dat geval moet de grootte van n om een bepaalde CI te halen afgeleid worden uit:
  1. De waarden die het gemiddelde op de functie bepaalden
  2. De variantie & covariantie van de regressiecoëfficiënten
We willen dit betrouwbaarheidsinterval gebruiken bij een online tool die het loon voorspelt. Per consultatie zal de kwadratenmatrix er anders uitzien. Voor elk gemiddelde is het betrouwbaarheidsinterval dus verschillend. De varcovar_b zal natuurlijk variëren volgens het aantal ingevulde enquêtes, maar hier zou je deze kunnen fixeren op bepaalde tussenmomenten. Ex ante de effecten en hun covariantie inschatten is echter quasi onmogelijk (i.t.t. de variantie rond een populatiegemiddelde die uit voorgaand onderzoek bekend is). We weten dus niet op welke manier de kwadratenmatrix gewogen wordt.

Conclusie
  • Een conditioneel gemiddelde is een nuttige schatting met een kleiner betrouwbaarheidsinterval dan het betrouwbaarheidsinterval rond een populatiegemiddelde dat op relatief weinig cases gebaseerd is.
  • Meer variabelen zorgen meestal voor meer variatie. Ik weet niet of dit noodzakelijk zo is. De varcovar matrix kan immers ook negatieve cellen hebben of ongecorreleerde regressiecoëfficiënten.
  • Een steekproefgrootte vooropstellen die aangewezen is voor een conditioneel gemiddelde, is moeilijk. Voldoende cases voor elke waarde van een onafhankelijke waarde is echter nuttig om de variantie rond de schatter van haar effect te minimaliseren (vermijden van outliers).

Context

Algemene vraag in verband met de implementatie van een loontool.

donderdag 19 november 2009

De conjunctuur

We hebben het vaak over de conjunctuur. Te vaak. Althans te vaak zonder klaar en duidelijk te omschrijven wat we verstaan onder de conjunctuur. Ik probeer hier een paar werkbare methodes te formuleren:

De meest logische betekenis is de evolutie van het productieniveau. Dit is het GDP in volumes, en voor zover ik weet zijn de tijdreeksen die je hiervan in Eurostat vindt pas beschikbaar vanaf 1995. Misschien heeft men de Belgische Frank in de periode daarvoor (de Euro werd ingevoerd in 1999, maar er is altijd een periode van gekoppelde wisselkoersen voor de toetreding) niet omgerekend.

Evolutie van het productieniveau in België (1995-2006)
Bron: Eurostat

Een mooiere voorstelling van het bovenstaande krijg je als je de jaarlijkse groei van het GDP in volumes berekent. Zo zie je duidelijk, zelfs op korte termijn, dat dat er altijd regen komt na de zonneschijn. De allegorie is niet gratuit: het ECB houdt zich bezig met economische 'forecasts', en zoals de aarde ondanks de opeenvolging van zomers en winters trendmatig opwarmt, zo rekenen we er ook op dat de gemiddelde groei positief blijft. In onderstaande grafiek heb ik met groene balkjes nu eens de periodes van stijgende conjunctuur, dan weer de periodes van bovengemiddelde groei aangegeven. Je ziet dat je eenzelfde economische toestand op twee manieren kan bekijken (een minimum van de curve dat boven het gemiddelde groeiniveau blijft hoeft geen crisis te zijn).

Evolutie van de groei van het productieniveau in België (1996-2006)

Bron: Eurostat

Alternatieve maten ('proxies')

In plaats van het productieniveau te beschouwen, kan ook de productiviteit bekeken worden. In dat geval moet je het GDP per capita in volumes nemen (of per werknemer, of het loon over het BBP). Je kan dit verrechtvaardigen als een conjuncturele cyclus door het feit dat kapitaalinvesteringen de productiviteit van werknemers verhogen, en kapitaalinvesteringen een teken zijn van economisch enthousiasme. Dit geldt echter enkel bij een constante tewerkstelling. Als een adverse schok opgevangen wordt door afslankingen van het personeelsbestand, krijgen we een relatieve stijging van de productiefactor kapitaal, en via die verhoogde kapitaalintensiteit een hogere productiviteit (11/2011, hier ben ik niet meer zo zeker van: onderbezetting leidt tot lagere productiviteit maar dat zal bij een gedaalde vraag soms de enige oplossing zijn - een machine kan je niet ontslaan, hooguit verkopen). Een stijgende productiviteit gaat dus soms samen met een neergaande beweging van de conjunctuur en vice versa wanneer het personeeel wordt uitgebreid om de bestaande productiecapaciteit volledig te benutten, alvorens deze te vergroten.

Als afgeleide van de output-indicatoren kan de tewerkstelling of werkloosheid een proxy zijn voor de conjunctuur. Economische groei en werkloosheid zijn sterk met elkaar gelinkt volgens de wet van Okun. De weerslag van economische veranderingen op sociaal gebied zal dus eerder met deze indicator gemeten moeten worden.

Conclusie

Je kan de conjunctuur op verschillende manieren in een analyse inbrengen. Omdat je soms tóch moet laggen, kan een maat zoals de werkloosheid (die een beetje achterkomt op de conjunctuur, maar waarvan je zou kunnen veronderstellen dat die lag variëert - sneller bij recessie, trager bij een 'afkoeling') uitkomst bieden omdat ze misschien sowieso het effect van het productiepeil medieert.

Referenties

Bodart V., Ledent Ph. & Shadman F. (2008) 'Comment la croissance économicque et le coût salarial déterminent-ils l'emploi en Belgique', UCL: Regards Economiques --- Een analyse van de verkiezingsbelofte van Verhostadt II om tegen het eind van de legislatuur 200 000 jobs te creëren.

Heylen F. (2004) 'Macro Economie', Leuven: Garant --- pf. 1.2.3 werkloosheid: wet van Okun. Het interessante aan deze wet is dat ze een stijging van de werkloosheid voorspelt als de economie de potentiële/ gemiddelde groei haalt. Ik ben om die reden geneigd te veronderstellen dat er een mechanisme is zodat op uiterst lange termijn de groei ondermijnd wordt door een toenemende werkloosheid.

De formule is: diffU = A - inv(okun)*(y-y*)


Context

Project loonvorming, luik loonflexibiliteit: verband tussen conjuncturele evolutie en de loonevolutie (wage curve).

maandag 9 november 2009

Determinanten van het loon

In salarisonderzoek zijn we meestal tevreden met de variabelen die de enquête levert. Zelden of nooit is dit op maat gemaakt van een multilevelmodel voor de predictie van lonen. We halen de niveau dan maar door elkaar. Hier probeer ik een onderscheid te maken, volgens de variabelen die in mij opkomen.
  • Persoonskenmerken
    • Gender
    • Leeftijd
    • Burgerlijke staat
    • Kinderen
    • Opleidingsniveau
  • Werknemerskenmerken
    • Beroepsanciënniteit
    • Bedrijfsanciënniteit
    • Functieniveau
  • Bedrijfskenmerken
    • Ondernemingsgrootte
      • Lallemand, Plasman & Rycx (2005) 'The Establishment-Size Wage Premium: Evidence from European Countries'
  • Sectorkenmerken
    • Omzet