We willen weten of de loonkloof
- Een algemene trend is
- Een probleem van 'discriminerende' of 'onevenwichtige' bedrijven is
- Een structureel probleem van sectoren of paritaire comités is
- Een variantie-analyse tussen de niveaus
- Het verklaren van de variantie op elk niveau
Data
In principe willen we hiërarchisch geclusterde data:
- Werknemer
- Bedrijf
- Sector
- Paritair Comité
Anderzijds kunnen we niet alle data opvragen, en in een drielevelmodel vrees ik trouwens dat te veel data ongezond is. Hiërarchische model worden immers via maximum likelihood (of REML) geschat, door de coëfficiënten incrementeel aan te passen tot de maximale likelihood bereikt wordt. Dat betekent dat dezelfde analyse soms 5 keer, en soms 100 keer wordt overgedaan.
Wat is nu de impact van de dataselectie? Om te beginnen zal het intercept vertekend zijn. Het intercept is immers gewoon het gemiddelde van de steekproef in een model zonder determinanten. Is de steekproef niet representatief, dan neigt dit gemiddelde eerder naar de grootste groep in de steekproef. Voegen we gender toe als determinant, dan controleren we het intercept voor gender, maar niet voor alle andere effecten (vb. ondernemingsgrootte, functieniveau, ... ).
Is er vertekening op het effect van gender? Dat is mogelijk, want het effect van gender is het verschil tussen het populatiegemiddelde van mannen en vrouwen, en dit is op dezelfde manier vertekend als het intercept. Als de mannen en vrouwen niet willekeurig geselecteerd zijn, dan zijn hun populatiegemiddelde beïnvloedt door de groepen waar ze dominant in vertegenwoordigd zijn.
Stel dat twee sectoren A en B elk de helft van de tewerkstelling voor hun rekening nemen, die gelijk verdeeld is over mannen en vrouwen en met een loonkloof van 0 percent. Sector A heeft een hoger loon dan sector B. In sector A zijn alle arbeiders vrouwen en alle vrouwen arbeider. In sector B zijn alle vrouwen bediende, en alle bedienden vrouwen. Er is geen verschil in loon binnen een sector. Nemen we nu een steekproef die enkel uit bedienden bestaat, dan zullen vrouwen dominant (zelfs uitsluitend) uit sector B komen. Hun loon zal lager zijn dan het gemiddelde loon voor vrouwen. Voor mannen geldt exact hetzelfde. Er is eigenlijk geen loonkloof, behalve naar statuut, en willen we nu net daarop geselecteerd hebben. Omdat we soms niet weten dat we op een dergelijke variabele selecteren, moeten we opletten met het oververtegenwoordigen van bepaalde groepen. In sommige situaties is dit echter toch nuttig om de fout rond de schatter te verkleinen. Dit is verantwoord omdat de variabele zelf als determinant wordt opgenomen.
Analyse
De vergelijkingen op elk level zijn:
- W = I + A*Gender
- A = B + bedrijfskenmerken
- B = C + sectorkenmerken/kenmerken sociaal overleg
Er zijn dus altijd twee verklaringen voor een genderdifferentie:
- Een schijneffect, dat verdwijnt wanneer de echte variabelen in het model worden opgenomen
- Een reëel effect, waarop we kunnen regresseren
Besluit
Een multileveldesign kan ons leren op welk niveau de loondrift tot stand komt. Dit perspectief is niet eerder aangeboord, of toch niet algemeen bekend. Als framework voor verder onderzoek is dit zeker interessant. Het biedt de mogelijkheid om verklaringsmodellen op te stellen waarbij good practices kunnen ingebouwd worden. De vraag is nu of die good practices op het niveau van de bedrijven gevormd worden, of er anderzijds een controlerend effect is van de sector of het paritair comité.
Te verwachten complicaties zijn de volgende
- De vraag of er voldoende cases zijn: hierbij is het aantal cases op elk niveau van belang. Er zijn geen wetenschappelijke afleidingen die een norm vooropstellen. Meestal gebruikt men de vuistregel dat er zo'n twintig cases op elk niveau moeten zijn.
- Het probleem van imperfecte hiërarchische clustering: één bedrijf kan werknemers onder meerdere paritaire comités hebben. Dit is bijna per definitie het geval met arbeiders en bedienden. Door de bedrijven op te splitsen naar arbeiders en bedienden, plaatsen we een variabele van het persoonlijke niveau op het tweede level. De implicaties hiervan moeten onderzocht worden.
- Het probleem van jobmobiliteit: eenzelfde individu kan meerdere keren in de data voorkomen, met verschillende jobs (in hetzelfde kwartaal / op hetzelfde moment). Als de individuele kenmerken de loonkloof verklaren, zullen deze meermaals verrekend worden, wat de standaardfout valselijk verkleint.
- De subselectie van werknemers binnen een bedrijf of bedrijven binnen een sector of paritair comité, zou een bron kunnen zijn van selectiviteit. Neemt men ten andere een fractie van de bedrijven of een fractie van de werknemers, en de bedrijven waartoe deze behoren (m.a.w. een gewogen selectie van de bedrijven volgens hun aandeel in de tewerkstelling).
Het is in mijn ogen van belang om naast deze technische aspecten ook de vraag te stellen naar het analytische model: wàt willen we verklaren. Dé loonkloof verklaren op àlle niveau lijkt mij overambitieus. Het model moet eerst nog bewijzen bruikbaar te zijn voor dit soort analyses. Ik schat in dat dit het geval zal zijn, maar men moet eerst leren lopen voor men kan fietsen: stap 1, de variantie-analyse, lijkt mij de basis te leggen voor een verdere invullen van het model. Dit betekent dan ook dat er minder tijd gestopt moet worden in verklarende variabelen. Ik voorspel dat dit zal indruisen tegen de nieuwsgierigheid van de onderzoeker, maar zou geneigd zijn vast te houden aan een cumulatief onderzoeksplan.
Context
Voorbereiding data aanvraag bij administratieve overheden voor een project rond de loonkloof. Mijn ongevraagde opinie.