Database met artikels uit de sociale wetenschappen
Registratie noodzakelijk, maar gratis
http://www.ssrn.com
donderdag 24 december 2009
OESO statistieken
Source OECD is de online bibliotheek van statistische databanken, boeken en tijdschriften van het OECD (Organisation for Economic Co-Operation and Development), of OESO.
http://www.oecd-ilibrary.org - nieuwe site
http://www.sourceoecd.org - oude site
http://stats.oecd.org
http://www.oecd-ilibrary.org - nieuwe site
http://www.sourceoecd.org - oude site
http://stats.oecd.org
woensdag 23 december 2009
Country groupings from theory
Updatet 8 january 2014, but still in draft. Good luck.
In this post I address some country groupings that are the result of theories. The advantage is that, when the theory is applicable, the groupings make sense. The disadvantage is that the theories are often criticized and adjusted, and countries may change as well so that one grouping may no longer be appropriate.
Soskice, D. (1999). Divergent production regimes: coordinated and uncoordinated market economies in the 1980s and 1990s. In H. Kitschelt, P. Lange, G. Marks, & J. D. Stephens (Eds.), Continuity and change in contemporary capitalism (Vol. 38, pp. 101-134). Cambridge: Cambridge Univ. Press.
Hall, P.A. and Soskice, D. (2001) Varieties of Capitalism, the Institutional Foundation of Comparative
Advantage', Oxford, Oxford University Press.
Touwen, J. (2006). Varieties of capitalism en de Nedelandse economie in de periode 1950-2000. Tijdschrift voor Sociale en Economische Geschiedenis, 3(1), 73-104.
Men kan zich afvragen wat nog de waarde is van de VoC theorie:
De theorie van Inglehart is ontzettend goed ingeburgerd. Toch is ze niet erg origineel, het is een vertaling naar het sociale niveau van de individuele behoeftenpiramide van Maslo. Daarnaast heb ik ook de indruk dat de evolutie van moderne naar postmoderne samenleving in de eerste plaats een economisch verhaal is. De gebruikte typologie geeft daar een kwalitatieve invulling van, wat op zicht waardevol is, maar de aandacht niet mag wegtrekken van de motor van deze evolutie.
Ik kan geen goede gok doen omtrent de definitie van de welvaartstaat. De typologie van Esping-Andersen wordt echter vooral gebruikt voor Westerse samenlevingen, dus een welvaartstaat lijkt simpelweg een 'welvarende staat' te zijn. Vermoedelijker zit het iets genuanceerde in elkaar.
Types van welvaartstaten
In this post I address some country groupings that are the result of theories. The advantage is that, when the theory is applicable, the groupings make sense. The disadvantage is that the theories are often criticized and adjusted, and countries may change as well so that one grouping may no longer be appropriate.
Varieties of Capitalism (VoC)
Hollingsworth, J. R., & Boyer, R. (1997). Contemporary capitalism: the embeddedness of institutions. Cambridge: Cambridge University Press.Soskice, D. (1999). Divergent production regimes: coordinated and uncoordinated market economies in the 1980s and 1990s. In H. Kitschelt, P. Lange, G. Marks, & J. D. Stephens (Eds.), Continuity and change in contemporary capitalism (Vol. 38, pp. 101-134). Cambridge: Cambridge Univ. Press.
Hall, P.A. and Soskice, D. (2001) Varieties of Capitalism, the Institutional Foundation of Comparative
Advantage', Oxford, Oxford University Press.
Touwen, J. (2006). Varieties of capitalism en de Nedelandse economie in de periode 1950-2000. Tijdschrift voor Sociale en Economische Geschiedenis, 3(1), 73-104.
- Kritiek
- VoC kan geen veranderingen verklaren
- Overheid wordt vergeten
- Ruim overzicht van de theorie
- Nederland als voorbeeld van een transitieland
- Clustering is onmogelijk
- Verandering is onverklaarbaar
- Transitiestaten zouden suboptimaal moeten presteren
- Geen "ranglijst" met alle landen: steeds opnieuw berekend met andere indicatoren voor andere landen
Modern - Postmodern (Inglehart)
Dit is een mooie en bekende theorie. Ik zal eerst zeggen waarom ze mooi is: landen worden op een continue schaal gesitueerd. Als ik het goed onthouden heb zijn er twee dimensies aan verbonden. De evolutie van die landen gebeurt in de richting van wat men een postmoderne samenleving noemt. Het gigantische voordeel van zo'n continue schaal is dat er beter kan omgegaan worden met intragroepsvariantie. Als die immers voortkomt uit de niet-homogeniteit van de gebruikte clusters in andere theorieën op basis van de variabele waarop geclusterd is, dan zit je natuurlijk met een serieus probleem.De theorie van Inglehart is ontzettend goed ingeburgerd. Toch is ze niet erg origineel, het is een vertaling naar het sociale niveau van de individuele behoeftenpiramide van Maslo. Daarnaast heb ik ook de indruk dat de evolutie van moderne naar postmoderne samenleving in de eerste plaats een economisch verhaal is. De gebruikte typologie geeft daar een kwalitatieve invulling van, wat op zicht waardevol is, maar de aandacht niet mag wegtrekken van de motor van deze evolutie.
Welvaartstaten (Esping-Andersen)
Esping-andersen, G. Ed. (1993) Changing Classes: Stratification and Mobility in Post-Industrial Societies. London, Sage.Ik kan geen goede gok doen omtrent de definitie van de welvaartstaat. De typologie van Esping-Andersen wordt echter vooral gebruikt voor Westerse samenlevingen, dus een welvaartstaat lijkt simpelweg een 'welvarende staat' te zijn. Vermoedelijker zit het iets genuanceerde in elkaar.
Types van welvaartstaten
- De liberale welvaartstaat, met doorgedreven individualisme en vermarkting
- De sociaaldemocratische welvaartstaat: het Scandinavische model met de staat als substituut voor gezinstaken)
- De corporatistische welvaartstaat, waar de traditionele banden volgens het subsidiariteitsprincipe de sociale taken op zich nemen.
"Unscientific" European regions (Eurofound)
Eurofound uses country groups that mimic the above ones very well, but includes many non-assigned countries. This is the list from [some publication]
- Continental countries: Austria, Belgium, Germany, France,Luxemburg
- Anglo-Saxon countries: Ireland, UK
- Eastern European Countries: Czech Republic, Estonia, Hungaria, Lithuania, Latvia, Poland, Slovenia, Slovakia
- Southern European Countries: Cyprus, Greece, Italy, Portugal, Spain
- Scandinavian Countries and Netherlands: Denmark, Finland, the Netherlands, Sweden, Norway
How do these clusters relate to the theoretical ones? Actually, they fit the models very well.
The Varieties of Capitalism, as far as Europe is considered, can be directly retrieved, comparing the Anglo-Saxon cluster with all other regions. The unclassified mediterranean countries are separated as well.
The welfare state typology of Esping-Andersen is covered too. The social democrat welfare states are in the Scandinavian cluster, arguably including the Netherlands. The liberal cluster keeps with the liberal market economies. The corporatist countries are then the continental region and the southern European countries.
From the perspective of the regulation theory, there are some quirks, but the clustering is farily valid. First, there are "quickly adapting market economies ... the liberal ones. Then, we have social democrat market economies, which, for Europe, are the Scandinavian countries. Again, it is unclear where to put the Netherlands. Finaly there is a distinction that is harder to make: between meso-corporatist and public market economies. In the first, industrial conglomerates play a coordinating role. Japan and Korea - if they still exist - are labeled as such. The second could be called European neocorporatist countries and include the continental coutnries (to the example of France).
From a merely geographical point of view, Scotland is of course more to the North than Denmark and the Netherlands, so that the Scandinavian region cannot be called the Northern.The same holds true for the baltic states. In all other aspects, however, the typology is geographical more than anything else.
In practically all theoretical typologies, we have difficulties placing the Netherlands in a cluster and forming a cluster for the Mediterranean as well as the Eastern European countries. Also, we cannot neglect the differences within (some) Eastern European countries and the changes that appear in other members states, such as the clear liberalization of the paradigm country, Germany, and the loss of solidarity in Scandinavian countries. As Europeanization continues, some convergence may, dispite the historical paths, occur anyway.
dinsdag 22 december 2009
Start to Stata
Ik was een SPSS gebruiker, om twee redenen:
- Dit is wat men aan de universiteit aanleerde
- SAS is een lelijk beestje
De meeste onderzoekers zullen erkennen dat de mogelijkheden van elk pakket hen boven het hoofd gaan, ook van het 'speelgoed' SPSS. Maar afhankelijk van de taak die je moet uitvoeren kan je een voorkeur hebben voor bepaalde software. Omdat ik gek werd van de syntaxcontrole in SPSS, en bepaalde econometrische tests niet vond, probeer ik nu Stata uit.
Eerste klacht: grote datasets raken niet geladen. Mijn computer heeft 3 GB ram, maar toch kan ik slechts 700 MB aan stata toewijzen. Dit is vreemd en vervelend, aangezien sommige administratieve data die ik gebruik groter zijn dan 1 GB. Toewijzen gebeurt als volgt:
set memory 700m, permanently
Jammer genoeg moet ik de data dus eerst in SPSS laden en opsplitsen tot ze bruikbaar zijn in STATA.
- Dit is wat men aan de universiteit aanleerde
- SAS is een lelijk beestje
De meeste onderzoekers zullen erkennen dat de mogelijkheden van elk pakket hen boven het hoofd gaan, ook van het 'speelgoed' SPSS. Maar afhankelijk van de taak die je moet uitvoeren kan je een voorkeur hebben voor bepaalde software. Omdat ik gek werd van de syntaxcontrole in SPSS, en bepaalde econometrische tests niet vond, probeer ik nu Stata uit.
First impressions of Stata
Eerste opmerking: het categorizeren van variabelen (prefix i) en inbouwen van interactie-effecten (# en ##) is geniaal.Eerste klacht: grote datasets raken niet geladen. Mijn computer heeft 3 GB ram, maar toch kan ik slechts 700 MB aan stata toewijzen. Dit is vreemd en vervelend, aangezien sommige administratieve data die ik gebruik groter zijn dan 1 GB. Toewijzen gebeurt als volgt:
set memory 700m, permanently
Jammer genoeg moet ik de data dus eerst in SPSS laden en opsplitsen tot ze bruikbaar zijn in STATA.
Coming from SAS?
Here are some websites with syntax translation:- http://www.cpc.unc.edu/research/tools/data_analysis/sas_to_stata
- http://www.ats.ucla.edu/stat/stata/faq/sas_command_to_stata.htm
Introductions
dinsdag 15 december 2009
Vreemde vaststelling
De gecontroleerde loonkloof vergroot als we rekening houden met het paritair comité waaronder de werknemer valt. We hebben altijd gedacht dat de best verlonende sectoren mannenbastions waren, maar dit moeten we dus herbekijken. Het lijkt er dus op dat het gaat over de hiërarchische verhoudingen binnen een sector (verticale seggregatie), eerder dan de keuze voor een sector (horizontale seggregatie). Neemt men de zorgsector, dan is dit duidelijk: coördinatoren van instelling zijn vaker mannen, de maatschappelijk werkers vrouwelijk. Artsen en chirurgen zijn overwegend mannen, verplegend personeel vrouwelijk. De sector is echter niet goed verlonend, maar wellicht toch beter dan de transportsector, een mannenwereld ...
Vreemde vaststelling
Uitgedrukt in voltijdsequivalenten, verdient een voltijdse werknemer gemiddeld minder dan een deeltijdse werknemer. Dit verschil wordt nog duidelijker wanneer we de cijfers voor mannen en vrouwen afzonderlijk berekenen. Over de twee groepen heen is het effect minder sterk, omdat de lonen van vrouwen lager liggen dan die van mannen, en vrouwen vaker deeltijds werken. Niettemin is er geen 'full time'-premie op het salaris. Vakantiegeld, niet-lineaire premies, ... zullen misschien wel in het voordeel van de voltijdse werknemers zijn, maar dit heb ik nog niet onderzocht.
maandag 30 november 2009
Verklaringsschema loonkloof
Verklaringsmodellen voor de loonkloof geven zelden de keten van relaties aan. Alle verklarende variabelen worden op één niveau ondergebracht.
In onderstaand schema heb ik geprobeerd om een model te schetsen dat zich zou moeten lenen tot een betere operationalisatie van de (latente) concepten. Het kan een aanzet zijn naar pad modellering.
Context
Project loonvorming. Er zijn schema's, maar eerder als denkkader dan als analytisch model.
In onderstaand schema heb ik geprobeerd om een model te schetsen dat zich zou moeten lenen tot een betere operationalisatie van de (latente) concepten. Het kan een aanzet zijn naar pad modellering.
Context
Project loonvorming. Er zijn schema's, maar eerder als denkkader dan als analytisch model.
donderdag 26 november 2009
Multilevel design voor de loonkloof
Vraagstelling
We willen weten of de loonkloof
Data
In principe willen we hiërarchisch geclusterde data:
Anderzijds kunnen we niet alle data opvragen, en in een drielevelmodel vrees ik trouwens dat te veel data ongezond is. Hiërarchische model worden immers via maximum likelihood (of REML) geschat, door de coëfficiënten incrementeel aan te passen tot de maximale likelihood bereikt wordt. Dat betekent dat dezelfde analyse soms 5 keer, en soms 100 keer wordt overgedaan.
Wat is nu de impact van de dataselectie? Om te beginnen zal het intercept vertekend zijn. Het intercept is immers gewoon het gemiddelde van de steekproef in een model zonder determinanten. Is de steekproef niet representatief, dan neigt dit gemiddelde eerder naar de grootste groep in de steekproef. Voegen we gender toe als determinant, dan controleren we het intercept voor gender, maar niet voor alle andere effecten (vb. ondernemingsgrootte, functieniveau, ... ).
Is er vertekening op het effect van gender? Dat is mogelijk, want het effect van gender is het verschil tussen het populatiegemiddelde van mannen en vrouwen, en dit is op dezelfde manier vertekend als het intercept. Als de mannen en vrouwen niet willekeurig geselecteerd zijn, dan zijn hun populatiegemiddelde beïnvloedt door de groepen waar ze dominant in vertegenwoordigd zijn.
Stel dat twee sectoren A en B elk de helft van de tewerkstelling voor hun rekening nemen, die gelijk verdeeld is over mannen en vrouwen en met een loonkloof van 0 percent. Sector A heeft een hoger loon dan sector B. In sector A zijn alle arbeiders vrouwen en alle vrouwen arbeider. In sector B zijn alle vrouwen bediende, en alle bedienden vrouwen. Er is geen verschil in loon binnen een sector. Nemen we nu een steekproef die enkel uit bedienden bestaat, dan zullen vrouwen dominant (zelfs uitsluitend) uit sector B komen. Hun loon zal lager zijn dan het gemiddelde loon voor vrouwen. Voor mannen geldt exact hetzelfde. Er is eigenlijk geen loonkloof, behalve naar statuut, en willen we nu net daarop geselecteerd hebben. Omdat we soms niet weten dat we op een dergelijke variabele selecteren, moeten we opletten met het oververtegenwoordigen van bepaalde groepen. In sommige situaties is dit echter toch nuttig om de fout rond de schatter te verkleinen. Dit is verantwoord omdat de variabele zelf als determinant wordt opgenomen.
Analyse
De vergelijkingen op elk level zijn:
Er zijn dus altijd twee verklaringen voor een genderdifferentie:
Besluit
Een multileveldesign kan ons leren op welk niveau de loondrift tot stand komt. Dit perspectief is niet eerder aangeboord, of toch niet algemeen bekend. Als framework voor verder onderzoek is dit zeker interessant. Het biedt de mogelijkheid om verklaringsmodellen op te stellen waarbij good practices kunnen ingebouwd worden. De vraag is nu of die good practices op het niveau van de bedrijven gevormd worden, of er anderzijds een controlerend effect is van de sector of het paritair comité.
Te verwachten complicaties zijn de volgende
Het is in mijn ogen van belang om naast deze technische aspecten ook de vraag te stellen naar het analytische model: wàt willen we verklaren. Dé loonkloof verklaren op àlle niveau lijkt mij overambitieus. Het model moet eerst nog bewijzen bruikbaar te zijn voor dit soort analyses. Ik schat in dat dit het geval zal zijn, maar men moet eerst leren lopen voor men kan fietsen: stap 1, de variantie-analyse, lijkt mij de basis te leggen voor een verdere invullen van het model. Dit betekent dan ook dat er minder tijd gestopt moet worden in verklarende variabelen. Ik voorspel dat dit zal indruisen tegen de nieuwsgierigheid van de onderzoeker, maar zou geneigd zijn vast te houden aan een cumulatief onderzoeksplan.
Context
Voorbereiding data aanvraag bij administratieve overheden voor een project rond de loonkloof. Mijn ongevraagde opinie.
We willen weten of de loonkloof
- Een algemene trend is
- Een probleem van 'discriminerende' of 'onevenwichtige' bedrijven is
- Een structureel probleem van sectoren of paritaire comités is
- Een variantie-analyse tussen de niveaus
- Het verklaren van de variantie op elk niveau
Data
In principe willen we hiërarchisch geclusterde data:
- Werknemer
- Bedrijf
- Sector
- Paritair Comité
Anderzijds kunnen we niet alle data opvragen, en in een drielevelmodel vrees ik trouwens dat te veel data ongezond is. Hiërarchische model worden immers via maximum likelihood (of REML) geschat, door de coëfficiënten incrementeel aan te passen tot de maximale likelihood bereikt wordt. Dat betekent dat dezelfde analyse soms 5 keer, en soms 100 keer wordt overgedaan.
Wat is nu de impact van de dataselectie? Om te beginnen zal het intercept vertekend zijn. Het intercept is immers gewoon het gemiddelde van de steekproef in een model zonder determinanten. Is de steekproef niet representatief, dan neigt dit gemiddelde eerder naar de grootste groep in de steekproef. Voegen we gender toe als determinant, dan controleren we het intercept voor gender, maar niet voor alle andere effecten (vb. ondernemingsgrootte, functieniveau, ... ).
Is er vertekening op het effect van gender? Dat is mogelijk, want het effect van gender is het verschil tussen het populatiegemiddelde van mannen en vrouwen, en dit is op dezelfde manier vertekend als het intercept. Als de mannen en vrouwen niet willekeurig geselecteerd zijn, dan zijn hun populatiegemiddelde beïnvloedt door de groepen waar ze dominant in vertegenwoordigd zijn.
Stel dat twee sectoren A en B elk de helft van de tewerkstelling voor hun rekening nemen, die gelijk verdeeld is over mannen en vrouwen en met een loonkloof van 0 percent. Sector A heeft een hoger loon dan sector B. In sector A zijn alle arbeiders vrouwen en alle vrouwen arbeider. In sector B zijn alle vrouwen bediende, en alle bedienden vrouwen. Er is geen verschil in loon binnen een sector. Nemen we nu een steekproef die enkel uit bedienden bestaat, dan zullen vrouwen dominant (zelfs uitsluitend) uit sector B komen. Hun loon zal lager zijn dan het gemiddelde loon voor vrouwen. Voor mannen geldt exact hetzelfde. Er is eigenlijk geen loonkloof, behalve naar statuut, en willen we nu net daarop geselecteerd hebben. Omdat we soms niet weten dat we op een dergelijke variabele selecteren, moeten we opletten met het oververtegenwoordigen van bepaalde groepen. In sommige situaties is dit echter toch nuttig om de fout rond de schatter te verkleinen. Dit is verantwoord omdat de variabele zelf als determinant wordt opgenomen.
Analyse
De vergelijkingen op elk level zijn:
- W = I + A*Gender
- A = B + bedrijfskenmerken
- B = C + sectorkenmerken/kenmerken sociaal overleg
Er zijn dus altijd twee verklaringen voor een genderdifferentie:
- Een schijneffect, dat verdwijnt wanneer de echte variabelen in het model worden opgenomen
- Een reëel effect, waarop we kunnen regresseren
Besluit
Een multileveldesign kan ons leren op welk niveau de loondrift tot stand komt. Dit perspectief is niet eerder aangeboord, of toch niet algemeen bekend. Als framework voor verder onderzoek is dit zeker interessant. Het biedt de mogelijkheid om verklaringsmodellen op te stellen waarbij good practices kunnen ingebouwd worden. De vraag is nu of die good practices op het niveau van de bedrijven gevormd worden, of er anderzijds een controlerend effect is van de sector of het paritair comité.
Te verwachten complicaties zijn de volgende
- De vraag of er voldoende cases zijn: hierbij is het aantal cases op elk niveau van belang. Er zijn geen wetenschappelijke afleidingen die een norm vooropstellen. Meestal gebruikt men de vuistregel dat er zo'n twintig cases op elk niveau moeten zijn.
- Het probleem van imperfecte hiërarchische clustering: één bedrijf kan werknemers onder meerdere paritaire comités hebben. Dit is bijna per definitie het geval met arbeiders en bedienden. Door de bedrijven op te splitsen naar arbeiders en bedienden, plaatsen we een variabele van het persoonlijke niveau op het tweede level. De implicaties hiervan moeten onderzocht worden.
- Het probleem van jobmobiliteit: eenzelfde individu kan meerdere keren in de data voorkomen, met verschillende jobs (in hetzelfde kwartaal / op hetzelfde moment). Als de individuele kenmerken de loonkloof verklaren, zullen deze meermaals verrekend worden, wat de standaardfout valselijk verkleint.
- De subselectie van werknemers binnen een bedrijf of bedrijven binnen een sector of paritair comité, zou een bron kunnen zijn van selectiviteit. Neemt men ten andere een fractie van de bedrijven of een fractie van de werknemers, en de bedrijven waartoe deze behoren (m.a.w. een gewogen selectie van de bedrijven volgens hun aandeel in de tewerkstelling).
Het is in mijn ogen van belang om naast deze technische aspecten ook de vraag te stellen naar het analytische model: wàt willen we verklaren. Dé loonkloof verklaren op àlle niveau lijkt mij overambitieus. Het model moet eerst nog bewijzen bruikbaar te zijn voor dit soort analyses. Ik schat in dat dit het geval zal zijn, maar men moet eerst leren lopen voor men kan fietsen: stap 1, de variantie-analyse, lijkt mij de basis te leggen voor een verdere invullen van het model. Dit betekent dan ook dat er minder tijd gestopt moet worden in verklarende variabelen. Ik voorspel dat dit zal indruisen tegen de nieuwsgierigheid van de onderzoeker, maar zou geneigd zijn vast te houden aan een cumulatief onderzoeksplan.
Context
Voorbereiding data aanvraag bij administratieve overheden voor een project rond de loonkloof. Mijn ongevraagde opinie.
woensdag 25 november 2009
Betrouwbaarheidsintervallen rond een conditioneel gemiddelde
Na vruchteloos gegoogel moest ik opnieuw de onderburen wakkerschudden voor volgende vraag:
Hoe groot moet een steekproef zijn om een vooropgesteld betrouwbaarheidsinterval te halen?
Enfin, daarop had ik het antwoord wel, via de simpele regel
CI = +/- t * SE
SE = ( s² / (n-1) )
... voor een betrouwbaarheidsinterval rond een populatiegemiddelde.
Maar willen we de eigenschappen van een regressie, namelijk de predictie van bepaalde waarden voor groepen die misschien niet eens bestaan, benutten, dan werd dit onduidelijk. Welke n gaan we gebruiken als we het loon van een 40,5 jarige willen voorspellen, terwijl geen enkele 40,5 jarige in de steekproef voorkomt? Meer algemeen: hoe kunnen we een betrouwbaarheidsinterval berekenen rond een conditioneel gemiddelde?
Het goede nieuws: het is mogelijk. Het slechte nieuws: het is niet eenvoudig. We geven hier de werkwijze voor een betrouwbaarheidsinterval voor een OLS-schatting van een conditioneel gemiddelde.
Om te beginnen is een conditioneel gemiddelde altijd conditioneel op alle variabelen in de regressie. Zelfs al veronderstel je slechts dat één variabele vastgelegd wordt op een bepaalde waarde, dan nog zijn alle andere waarden vastgelegd op hun gemiddelde. Dit is belangrijk bij het lezen van de formule.
Het conditioneel gemiddelde wordt uiteraard gewoon berekend door de functie in te vullen. Laten we zeggen dat er K variabelen zijn. Het betrouwbaarheidsinterval wordt gegeven door:
CI = t*SE
SE = X' VARCOVAR_b X
X' X is de kwadratenmatrix met de veronderstelde waarden op de K variabelen. De resulterende dimensie is 1*1 (uit 1*K * K*1).
VARCOVAR_b is de variantie-covariantiematrix (K*K) van de geschatte regressiecoëfficiënten op K variabelen. Deze matrix kan opgevraagd worden via software. Hoe de variantie van een coëfficiënt op basis van één run berekend wordt, is mij een raadsel, maar in zekere zin wordt de steekproevenverdeling van de coëfficiënt gezocht en speelt de steekproefgrootte daarbij een rol. Dat kan niet anders, want de SE moet kleiner worden bij een grotere steekproef. Stel dat n^(-1) kan afgezonderd worden uit VARCOVAR_b. In dat geval moet de grootte van n om een bepaalde CI te halen afgeleid worden uit:
Conclusie
Context
Algemene vraag in verband met de implementatie van een loontool.
Hoe groot moet een steekproef zijn om een vooropgesteld betrouwbaarheidsinterval te halen?
Enfin, daarop had ik het antwoord wel, via de simpele regel
CI = +/- t * SE
SE = ( s² / (n-1) )
... voor een betrouwbaarheidsinterval rond een populatiegemiddelde.
Maar willen we de eigenschappen van een regressie, namelijk de predictie van bepaalde waarden voor groepen die misschien niet eens bestaan, benutten, dan werd dit onduidelijk. Welke n gaan we gebruiken als we het loon van een 40,5 jarige willen voorspellen, terwijl geen enkele 40,5 jarige in de steekproef voorkomt? Meer algemeen: hoe kunnen we een betrouwbaarheidsinterval berekenen rond een conditioneel gemiddelde?
Het goede nieuws: het is mogelijk. Het slechte nieuws: het is niet eenvoudig. We geven hier de werkwijze voor een betrouwbaarheidsinterval voor een OLS-schatting van een conditioneel gemiddelde.
Om te beginnen is een conditioneel gemiddelde altijd conditioneel op alle variabelen in de regressie. Zelfs al veronderstel je slechts dat één variabele vastgelegd wordt op een bepaalde waarde, dan nog zijn alle andere waarden vastgelegd op hun gemiddelde. Dit is belangrijk bij het lezen van de formule.
Het conditioneel gemiddelde wordt uiteraard gewoon berekend door de functie in te vullen. Laten we zeggen dat er K variabelen zijn. Het betrouwbaarheidsinterval wordt gegeven door:
CI = t*SE
SE = X' VARCOVAR_b X
X' X is de kwadratenmatrix met de veronderstelde waarden op de K variabelen. De resulterende dimensie is 1*1 (uit 1*K * K*1).
VARCOVAR_b is de variantie-covariantiematrix (K*K) van de geschatte regressiecoëfficiënten op K variabelen. Deze matrix kan opgevraagd worden via software. Hoe de variantie van een coëfficiënt op basis van één run berekend wordt, is mij een raadsel, maar in zekere zin wordt de steekproevenverdeling van de coëfficiënt gezocht en speelt de steekproefgrootte daarbij een rol. Dat kan niet anders, want de SE moet kleiner worden bij een grotere steekproef. Stel dat n^(-1) kan afgezonderd worden uit VARCOVAR_b. In dat geval moet de grootte van n om een bepaalde CI te halen afgeleid worden uit:
- De waarden die het gemiddelde op de functie bepaalden
- De variantie & covariantie van de regressiecoëfficiënten
Conclusie
- Een conditioneel gemiddelde is een nuttige schatting met een kleiner betrouwbaarheidsinterval dan het betrouwbaarheidsinterval rond een populatiegemiddelde dat op relatief weinig cases gebaseerd is.
- Meer variabelen zorgen meestal voor meer variatie. Ik weet niet of dit noodzakelijk zo is. De varcovar matrix kan immers ook negatieve cellen hebben of ongecorreleerde regressiecoëfficiënten.
- Een steekproefgrootte vooropstellen die aangewezen is voor een conditioneel gemiddelde, is moeilijk. Voldoende cases voor elke waarde van een onafhankelijke waarde is echter nuttig om de variantie rond de schatter van haar effect te minimaliseren (vermijden van outliers).
Context
Algemene vraag in verband met de implementatie van een loontool.
donderdag 19 november 2009
De conjunctuur
We hebben het vaak over de conjunctuur. Te vaak. Althans te vaak zonder klaar en duidelijk te omschrijven wat we verstaan onder de conjunctuur. Ik probeer hier een paar werkbare methodes te formuleren:
De meest logische betekenis is de evolutie van het productieniveau. Dit is het GDP in volumes, en voor zover ik weet zijn de tijdreeksen die je hiervan in Eurostat vindt pas beschikbaar vanaf 1995. Misschien heeft men de Belgische Frank in de periode daarvoor (de Euro werd ingevoerd in 1999, maar er is altijd een periode van gekoppelde wisselkoersen voor de toetreding) niet omgerekend.
Evolutie van het productieniveau in België (1995-2006)
Bron: Eurostat
Een mooiere voorstelling van het bovenstaande krijg je als je de jaarlijkse groei van het GDP in volumes berekent. Zo zie je duidelijk, zelfs op korte termijn, dat dat er altijd regen komt na de zonneschijn. De allegorie is niet gratuit: het ECB houdt zich bezig met economische 'forecasts', en zoals de aarde ondanks de opeenvolging van zomers en winters trendmatig opwarmt, zo rekenen we er ook op dat de gemiddelde groei positief blijft. In onderstaande grafiek heb ik met groene balkjes nu eens de periodes van stijgende conjunctuur, dan weer de periodes van bovengemiddelde groei aangegeven. Je ziet dat je eenzelfde economische toestand op twee manieren kan bekijken (een minimum van de curve dat boven het gemiddelde groeiniveau blijft hoeft geen crisis te zijn).
Evolutie van de groei van het productieniveau in België (1996-2006)
Bron: Eurostat
Alternatieve maten ('proxies')
In plaats van het productieniveau te beschouwen, kan ook de productiviteit bekeken worden. In dat geval moet je het GDP per capita in volumes nemen (of per werknemer, of het loon over het BBP). Je kan dit verrechtvaardigen als een conjuncturele cyclus door het feit dat kapitaalinvesteringen de productiviteit van werknemers verhogen, en kapitaalinvesteringen een teken zijn van economisch enthousiasme. Dit geldt echter enkel bij een constante tewerkstelling. Als een adverse schok opgevangen wordt door afslankingen van het personeelsbestand, krijgen we een relatieve stijging van de productiefactor kapitaal, en via die verhoogde kapitaalintensiteit een hogere productiviteit (11/2011, hier ben ik niet meer zo zeker van: onderbezetting leidt tot lagere productiviteit maar dat zal bij een gedaalde vraag soms de enige oplossing zijn - een machine kan je niet ontslaan, hooguit verkopen). Een stijgende productiviteit gaat dus soms samen met een neergaande beweging van de conjunctuur en vice versa wanneer het personeeel wordt uitgebreid om de bestaande productiecapaciteit volledig te benutten, alvorens deze te vergroten.
Als afgeleide van de output-indicatoren kan de tewerkstelling of werkloosheid een proxy zijn voor de conjunctuur. Economische groei en werkloosheid zijn sterk met elkaar gelinkt volgens de wet van Okun. De weerslag van economische veranderingen op sociaal gebied zal dus eerder met deze indicator gemeten moeten worden.
Conclusie
Je kan de conjunctuur op verschillende manieren in een analyse inbrengen. Omdat je soms tóch moet laggen, kan een maat zoals de werkloosheid (die een beetje achterkomt op de conjunctuur, maar waarvan je zou kunnen veronderstellen dat die lag variëert - sneller bij recessie, trager bij een 'afkoeling') uitkomst bieden omdat ze misschien sowieso het effect van het productiepeil medieert.
Referenties
Bodart V., Ledent Ph. & Shadman F. (2008) 'Comment la croissance économicque et le coût salarial déterminent-ils l'emploi en Belgique', UCL: Regards Economiques --- Een analyse van de verkiezingsbelofte van Verhostadt II om tegen het eind van de legislatuur 200 000 jobs te creëren.
Heylen F. (2004) 'Macro Economie', Leuven: Garant --- pf. 1.2.3 werkloosheid: wet van Okun. Het interessante aan deze wet is dat ze een stijging van de werkloosheid voorspelt als de economie de potentiële/ gemiddelde groei haalt. Ik ben om die reden geneigd te veronderstellen dat er een mechanisme is zodat op uiterst lange termijn de groei ondermijnd wordt door een toenemende werkloosheid.
De formule is: diffU = A - inv(okun)*(y-y*)
Context
Project loonvorming, luik loonflexibiliteit: verband tussen conjuncturele evolutie en de loonevolutie (wage curve).
De meest logische betekenis is de evolutie van het productieniveau. Dit is het GDP in volumes, en voor zover ik weet zijn de tijdreeksen die je hiervan in Eurostat vindt pas beschikbaar vanaf 1995. Misschien heeft men de Belgische Frank in de periode daarvoor (de Euro werd ingevoerd in 1999, maar er is altijd een periode van gekoppelde wisselkoersen voor de toetreding) niet omgerekend.
Evolutie van het productieniveau in België (1995-2006)
Bron: Eurostat
Een mooiere voorstelling van het bovenstaande krijg je als je de jaarlijkse groei van het GDP in volumes berekent. Zo zie je duidelijk, zelfs op korte termijn, dat dat er altijd regen komt na de zonneschijn. De allegorie is niet gratuit: het ECB houdt zich bezig met economische 'forecasts', en zoals de aarde ondanks de opeenvolging van zomers en winters trendmatig opwarmt, zo rekenen we er ook op dat de gemiddelde groei positief blijft. In onderstaande grafiek heb ik met groene balkjes nu eens de periodes van stijgende conjunctuur, dan weer de periodes van bovengemiddelde groei aangegeven. Je ziet dat je eenzelfde economische toestand op twee manieren kan bekijken (een minimum van de curve dat boven het gemiddelde groeiniveau blijft hoeft geen crisis te zijn).
Evolutie van de groei van het productieniveau in België (1996-2006)
Bron: Eurostat
Alternatieve maten ('proxies')
In plaats van het productieniveau te beschouwen, kan ook de productiviteit bekeken worden. In dat geval moet je het GDP per capita in volumes nemen (of per werknemer, of het loon over het BBP). Je kan dit verrechtvaardigen als een conjuncturele cyclus door het feit dat kapitaalinvesteringen de productiviteit van werknemers verhogen, en kapitaalinvesteringen een teken zijn van economisch enthousiasme. Dit geldt echter enkel bij een constante tewerkstelling. Als een adverse schok opgevangen wordt door afslankingen van het personeelsbestand, krijgen we een relatieve stijging van de productiefactor kapitaal, en via die verhoogde kapitaalintensiteit een hogere productiviteit (11/2011, hier ben ik niet meer zo zeker van: onderbezetting leidt tot lagere productiviteit maar dat zal bij een gedaalde vraag soms de enige oplossing zijn - een machine kan je niet ontslaan, hooguit verkopen). Een stijgende productiviteit gaat dus soms samen met een neergaande beweging van de conjunctuur en vice versa wanneer het personeeel wordt uitgebreid om de bestaande productiecapaciteit volledig te benutten, alvorens deze te vergroten.
Als afgeleide van de output-indicatoren kan de tewerkstelling of werkloosheid een proxy zijn voor de conjunctuur. Economische groei en werkloosheid zijn sterk met elkaar gelinkt volgens de wet van Okun. De weerslag van economische veranderingen op sociaal gebied zal dus eerder met deze indicator gemeten moeten worden.
Conclusie
Je kan de conjunctuur op verschillende manieren in een analyse inbrengen. Omdat je soms tóch moet laggen, kan een maat zoals de werkloosheid (die een beetje achterkomt op de conjunctuur, maar waarvan je zou kunnen veronderstellen dat die lag variëert - sneller bij recessie, trager bij een 'afkoeling') uitkomst bieden omdat ze misschien sowieso het effect van het productiepeil medieert.
Referenties
Bodart V., Ledent Ph. & Shadman F. (2008) 'Comment la croissance économicque et le coût salarial déterminent-ils l'emploi en Belgique', UCL: Regards Economiques --- Een analyse van de verkiezingsbelofte van Verhostadt II om tegen het eind van de legislatuur 200 000 jobs te creëren.
Heylen F. (2004) 'Macro Economie', Leuven: Garant --- pf. 1.2.3 werkloosheid: wet van Okun. Het interessante aan deze wet is dat ze een stijging van de werkloosheid voorspelt als de economie de potentiële/ gemiddelde groei haalt. Ik ben om die reden geneigd te veronderstellen dat er een mechanisme is zodat op uiterst lange termijn de groei ondermijnd wordt door een toenemende werkloosheid.
De formule is: diffU = A - inv(okun)*(y-y*)
Context
Project loonvorming, luik loonflexibiliteit: verband tussen conjuncturele evolutie en de loonevolutie (wage curve).
maandag 9 november 2009
Determinanten van het loon
In salarisonderzoek zijn we meestal tevreden met de variabelen die de enquête levert. Zelden of nooit is dit op maat gemaakt van een multilevelmodel voor de predictie van lonen. We halen de niveau dan maar door elkaar. Hier probeer ik een onderscheid te maken, volgens de variabelen die in mij opkomen.
- Persoonskenmerken
- Gender
- Leeftijd
- Burgerlijke staat
- Kinderen
- Opleidingsniveau
- Werknemerskenmerken
- Beroepsanciënniteit
- Bedrijfsanciënniteit
- Functieniveau
- Bedrijfskenmerken
- Ondernemingsgrootte
- Lallemand, Plasman & Rycx (2005) 'The Establishment-Size Wage Premium: Evidence from European Countries'
- Sectorkenmerken
- Omzet
vrijdag 30 oktober 2009
Decompositie van de loonevolutie
De evolutie van de gemiddelde effectieve lonen kan in twee componenten worden onderverdeeld:
De term loondrift slaat op veranderingen in het brutoloon als gevolg van het toekennen of juist verminderen van 'extra' beloningscomponenten of periodieken, bijvoorbeeld als gevolg van de situatie op de arbeidsmarkt.
Statistische effecten zijn veranderingen in het brutoloon als gevolg van statistische verschuivingen in het loon die wel tot uiting komen in de loonsom, maar geen relatie hebben met het functieloon (contractloon, loondrift of structuureffect). Voorbeelden hiervan zijn een stijging of daling van de werkgeversbijdrage particuliere ziektekosten, toe- of afname van het ziekteverzuim en bruteringsoperaties.
Referenties
CPB FAQ http://www.cpb.nl/nl/research/sector2/faq_iep/#vraag110
SER publicatie 'Stand van zaken loonvorming'
Methodologie CBS
Research Magazine 2003 artikel doctoraat Ralph Olthoff
Micromacro Consultants ILO onderzoek
Context
Project loonvorming: in Nederland doet men onderzoek naar de componenten van de loondrift, die zij het incidentele loon noemen. Het lukt hen nog ook.
- Het conventionele loon
- Het incidentele loon
- Het structuureffect of samenstellingseffect (vast incidenteel)
- De loondrift in enge zin (variabel incidenteel)
- De statistische effecten (overig incidenteel)
De term loondrift slaat op veranderingen in het brutoloon als gevolg van het toekennen of juist verminderen van 'extra' beloningscomponenten of periodieken, bijvoorbeeld als gevolg van de situatie op de arbeidsmarkt.
Statistische effecten zijn veranderingen in het brutoloon als gevolg van statistische verschuivingen in het loon die wel tot uiting komen in de loonsom, maar geen relatie hebben met het functieloon (contractloon, loondrift of structuureffect). Voorbeelden hiervan zijn een stijging of daling van de werkgeversbijdrage particuliere ziektekosten, toe- of afname van het ziekteverzuim en bruteringsoperaties.
Referenties
CPB FAQ http://www.cpb.nl/nl/research/sector2/faq_iep/#vraag110
SER publicatie 'Stand van zaken loonvorming'
Methodologie CBS
Research Magazine 2003 artikel doctoraat Ralph Olthoff
Micromacro Consultants ILO onderzoek
Context
Project loonvorming: in Nederland doet men onderzoek naar de componenten van de loondrift, die zij het incidentele loon noemen. Het lukt hen nog ook.
donderdag 29 oktober 2009
ISCO-classificatie
Laatste herziening in 2008 (dec 2007), maar voor de voorafgaande periode gebruiken we ISCO-88.
De nationale classificaties gebruiken ofwel letterlijk deze classificaties, ofwel baseren ze zich erop.
http://www.ilo.org/public/english/bureau/stat/isco/index.htm
http://unstats.un.org/unsd/class/family/family2.asp?Cl=224 (ISCO-88)
De nationale classificaties gebruiken ofwel letterlijk deze classificaties, ofwel baseren ze zich erop.
http://www.ilo.org/public/english/bureau/stat/isco/index.htm
http://unstats.un.org/unsd/class/family/family2.asp?Cl=224 (ISCO-88)
vrijdag 23 oktober 2009
Looncomponenten
We worden om de oren geslagen met Salarisonderzoeken, maar om een vergelijking te maken tussen verschillende onderzoeken, of binnen een onderzoek tussen verschillende groepen, is het van belang de samenstelling van de loonvariabelen goed te definiëren en daar de consequenties van in te zien.
Ik geef een overzicht van de belangrijkste looncomponenten, met een korte uitleg die je anders ook wel vindt via Google, en eventueel enkel kanttekeningen.
Conventioneel (baremiek loon)
Wettelijk minimumloon voor een functie, eventueel volgens anciënniteit.
Basisloon
Het basisloon is het conventioneel loon met een onderhandelde loonsverhoging (evt. bij aanvang van de job). Het conventionele deel wordt automatisch geïndexeerd, voor de extra vaste looncomponent is dit niet noodzakelijk het geval.
Individuele bonus
Variabel inkomen dat een werknemer krijgt uitgekeerd indien hij bepaalde, individuele, vooraf vastgelegde targets heeft behaald. Deze beloningsvorm ondersteunt resultaatsturing; de focus ligt op de output.
Gratificatie
Een spontane beloning voor het leveren van een bijzondere prestatie, zonder dat er vooraf expliciet sprake was van een target. Daarbij hoeft het overigens niet per se te gaan om een geldbedrag.
Eindejaarspremie of 13de maand
Dit is een bonus bij het loon in december. Deze bonus kan vastgelegd zijn in een sectoraal akkoord of in een individuele arbeidsovereenkomst, en maakt in deze gevallen deel uit van het salaris.
http://nl.wikipedia.org/wiki/Dertiende_maand
Enkel Vakantiegeld
Dit is het loon voor de dagen waarop vakantie wordt genomen. De hoogte van het enkel vakantiegeld is afhankelijk van de arbeidsprestaties in het voorafgaande jaar. Indien deze niet gewijzigd zijn, komt dit neer op een continuering van de verloning bij bedienden. Bij arbeiders wordt het enkel vakantiegeld geraamd op 8% van het brutojaarloon en moet gewacht worden op de uitbetaling tot de hoofdvakantie.
Dubbel vakantiegeld
Het dubbel vakantiegeld is een premie. Voor bedienden bedraagt deze 92% van het brutomaandloon. Voor arbeiders is dit 7.8% van het brutojaarloon. Met de hoofdvakantie ontvangen arbeiders bijgevolg 15.8% vakantiegeld.
http://nl.wikipedia.org/wiki/Vakantiegeld (gaat ook in op vertrek-vakantiegeld)
http://www.vacature.com/art566 (voor bedienden, beschouwt ook het effect van variabel loon)
Extralegale vergoedingen
Hier kan je een boek over schrijven. Werkgevers zullen meestal een belastingsvoordeel of schaalvoordeel hebben, zodat de impact op de loonkost lager is dan de verhoging van het inkomen van de werknemer. Om die reden is het een gemakkelijke manier om beide partijen tevreden te stellen. Extralegale vergoedingen worden echter niet in rekening gebracht om rechten op te bouwen (vb. werkloosheidsuitkering, pensioen, ...). Bij het opstellen van een loonindicator zijn deze voordelen moeilijk te bevragen omwille van hun diversiteit, veranderlijkheid, het statusaspect en de inschatting van de waarde. Bij de balanscentrale van de Nationale Bank is echter per bedrijf de kost van deze voordelen bekend.
Context
Project loonvorming: zoeken naar een vergelijkbaar loonbegrip voor arbeiders en bedienden. Het eigenaardige was dat de gebruikelijke veronderstelling, als zouden alle arbeiders uitbetaald worden via de 'vakantiekas' (Rijksdienst voor Jaarlijkse vakantie), eigenlijk niet klopt. Bovendien is er nog een derde optie, naast de kas en de RSZ, namelijk 'Blanco'. We hebben daarom geen rekening gehouden met het statuut, maar wel met de uitbetalingsinstelling om het vakantiegeld te berekenen / verdisconteren.
Project Wage Gap: zoeken naar een zo ruim mogelijk loonbegrip in administratieve data.
Ik geef een overzicht van de belangrijkste looncomponenten, met een korte uitleg die je anders ook wel vindt via Google, en eventueel enkel kanttekeningen.
Conventioneel (baremiek loon)
Wettelijk minimumloon voor een functie, eventueel volgens anciënniteit.
Basisloon
Het basisloon is het conventioneel loon met een onderhandelde loonsverhoging (evt. bij aanvang van de job). Het conventionele deel wordt automatisch geïndexeerd, voor de extra vaste looncomponent is dit niet noodzakelijk het geval.
Individuele bonus
Variabel inkomen dat een werknemer krijgt uitgekeerd indien hij bepaalde, individuele, vooraf vastgelegde targets heeft behaald. Deze beloningsvorm ondersteunt resultaatsturing; de focus ligt op de output.
Gratificatie
Een spontane beloning voor het leveren van een bijzondere prestatie, zonder dat er vooraf expliciet sprake was van een target. Daarbij hoeft het overigens niet per se te gaan om een geldbedrag.
Eindejaarspremie of 13de maand
Dit is een bonus bij het loon in december. Deze bonus kan vastgelegd zijn in een sectoraal akkoord of in een individuele arbeidsovereenkomst, en maakt in deze gevallen deel uit van het salaris.
http://nl.wikipedia.org/wiki/Dertiende_maand
Enkel Vakantiegeld
Dit is het loon voor de dagen waarop vakantie wordt genomen. De hoogte van het enkel vakantiegeld is afhankelijk van de arbeidsprestaties in het voorafgaande jaar. Indien deze niet gewijzigd zijn, komt dit neer op een continuering van de verloning bij bedienden. Bij arbeiders wordt het enkel vakantiegeld geraamd op 8% van het brutojaarloon en moet gewacht worden op de uitbetaling tot de hoofdvakantie.
Dubbel vakantiegeld
Het dubbel vakantiegeld is een premie. Voor bedienden bedraagt deze 92% van het brutomaandloon. Voor arbeiders is dit 7.8% van het brutojaarloon. Met de hoofdvakantie ontvangen arbeiders bijgevolg 15.8% vakantiegeld.
http://nl.wikipedia.org/wiki/Vakantiegeld (gaat ook in op vertrek-vakantiegeld)
http://www.vacature.com/art566 (voor bedienden, beschouwt ook het effect van variabel loon)
Extralegale vergoedingen
Hier kan je een boek over schrijven. Werkgevers zullen meestal een belastingsvoordeel of schaalvoordeel hebben, zodat de impact op de loonkost lager is dan de verhoging van het inkomen van de werknemer. Om die reden is het een gemakkelijke manier om beide partijen tevreden te stellen. Extralegale vergoedingen worden echter niet in rekening gebracht om rechten op te bouwen (vb. werkloosheidsuitkering, pensioen, ...). Bij het opstellen van een loonindicator zijn deze voordelen moeilijk te bevragen omwille van hun diversiteit, veranderlijkheid, het statusaspect en de inschatting van de waarde. Bij de balanscentrale van de Nationale Bank is echter per bedrijf de kost van deze voordelen bekend.
- Cheques: cultuur- en sportcheques, milieucheques, maaltijdcheques (bekende merken: Sodexho en Accor)
- Bedrijfswagens (tankkaart), abonnement openbaar vervoer, bedrijfsfiets, kilometervergoeding
- Bedrijfsaankopen, collectieve aankopen, kortingen
- GSM, telefoonabonnement, internetaansluiting
- Groepsverzekering, hospitalisatieverzekering, pensioenfonds
- Huisvesting, au pair, onderwijs, etc. (voordelen voor expats)
- Aandelen, opties, obligaties
- Soms meegerekend: strijkdienst, kinderopvang
Context
Project loonvorming: zoeken naar een vergelijkbaar loonbegrip voor arbeiders en bedienden. Het eigenaardige was dat de gebruikelijke veronderstelling, als zouden alle arbeiders uitbetaald worden via de 'vakantiekas' (Rijksdienst voor Jaarlijkse vakantie), eigenlijk niet klopt. Bovendien is er nog een derde optie, naast de kas en de RSZ, namelijk 'Blanco'. We hebben daarom geen rekening gehouden met het statuut, maar wel met de uitbetalingsinstelling om het vakantiegeld te berekenen / verdisconteren.
Project Wage Gap: zoeken naar een zo ruim mogelijk loonbegrip in administratieve data.
vrijdag 16 oktober 2009
Methodologie: stappenplan
Design
- Motivatie/relevantie
- Onderzoeksvraag
- Hypotheses
- Haalbaarheid
- Structuur
- Kwantitatief
- Kwalitatief
- Combinatie
donderdag 15 oktober 2009
Insider-Outsider hypothese
De insider-outsider hypothese (Lindbeck & Snower, 1988) luidt dat 'vastgebeitelde' werknemers over meer onderhandelingsmacht beschikken en ten koste van entrants (nieuwe werknemers) of outsiders (werklozen) hogere lonen bedingen.
Empirisch
Empirisch
We hebben de indruk dat België een vrij sterk insider-outsider model kent. We spreken ook van een interne arbeidsmarkt in bedrijven. Dit is mogelijk een verklaring waarom de loonelasticiteit bij oudere werknemers (meer ervaring, human capital) lager ligt dan bij jonge werknemers (entrants).
Context
Project loonvorming: is er een Wage Curve in België? We hebben interactiefactoren toegevoegd aan de elasticiteit.Referenties
Linbeck A.P. & Snower D. (1988) 'The Insider-Outsider Theory of Employment and Unemployment', Cambridge: MIT Press.
Heylen, F. (2004) 'Macro-economie', Leuven: Garant
Hysteresis
Hysteresis is een van de mooiste woorden uit het economisch lexicon. Vanuit sociaal oogpunt is het echter minder fraai.
We spreken van hysteresis wanneer korte termijnfluctuatie rond de natuurlijke werkloosheid (conjuncturele werkloosheid / frictionele werkloosheid), deze natuurlijk werkloosheid gaat veranderen (structurele werkloosheid). Ik ben niet 100% zeker van dit laatste label, maar de idee is er: wanneer een rekkertje haar elasticiteit verliest, krijgt ze een grotere omvang, en met werkloosheid is het net zo.
Blanchard & Summers (1986) kwamen met het begrip op de proppen. Er zijn twee verklaringen:
Referenties
Blanchard, O.J. & Summers, L. (1988) 'Hysteresis and the European unemplçoyment problem', in Cross R., ed. 'Unemployment, Hysteresis, and the Natural Rate Hypothesis. London: Blackwell.
Krugman, P. (1994) 'Past and prospective causes of high unemployment', economic review, Federal Reserve Bank of Kansas City, pp. 23-43
We spreken van hysteresis wanneer korte termijnfluctuatie rond de natuurlijke werkloosheid (conjuncturele werkloosheid / frictionele werkloosheid), deze natuurlijk werkloosheid gaat veranderen (structurele werkloosheid). Ik ben niet 100% zeker van dit laatste label, maar de idee is er: wanneer een rekkertje haar elasticiteit verliest, krijgt ze een grotere omvang, en met werkloosheid is het net zo.
Blanchard & Summers (1986) kwamen met het begrip op de proppen. Er zijn twee verklaringen:
- Formeel: een insider-outsider model, waarbij de vakbonden 100% preferentie hebben voor lonen ten koste van de werkgelegenheid. Die rigiditeit zorgt ervoor dat de werklozen niet opnieuw ingeschakeld worden (aan lagere lonen).
- Informeel: bovenop de modelmatige benadering neemt men aan dat langdurige werkloosheid vaardigheden en attitudes ondergraaft, zodat werklozen niet meer in te schakelen zijn.
Referenties
Blanchard, O.J. & Summers, L. (1988) 'Hysteresis and the European unemplçoyment problem', in Cross R., ed. 'Unemployment, Hysteresis, and the Natural Rate Hypothesis. London: Blackwell.
Krugman, P. (1994) 'Past and prospective causes of high unemployment', economic review, Federal Reserve Bank of Kansas City, pp. 23-43
Squared R voor ML-analyses
Om de een of andere reden is het voor statistische software moeilijk of onmogelijk om de determinatiecoëfficiënt R² te berekenen bij analyses die niet gebaseerd zijn op een OLS-schatting.
Nochtans is dit eigenlijk niet zo moeilijk. R² is immers het kwadraat van de multiple correlatiecoëfficient R, en dit is de correlatie tussen de verwachte waarde en de geobserveerde waarde.
Zolang software je toelaat om bij een analyse een nieuwe vector met de 'predicted value' aan te maken, kun je dus zelf de Squared R berekenen.
R² = corr(pred,obs)²
Ter info: R² geeft aan welk deel van de variantie verklaard wordt door het model. Een reden waarom deze parameter enkel bij OLS-schattingen gegeven wordt is allicht dat OLS-schattingen deze verklaring maximaliseren (soms met vertekeningen van de effecten of de fout daarrond als kostprijs). Zoals ik al heb geschreven is de GENLIN proc in SPSS handiger dan REGRESSION, en geven ML-schattingen onder bepaalde assumpties exact dezelfde schattingen als OLS-schattingen, zodat bovenstaande werkwijze niet onverantwoord is. Vergeet verder niet dat R² een slechte toets is voor de kwaliteit van het model. Immers: R² zal NOOIT dalen bij wanneer extra verklarende variabelen toegevoegd worden. Nochtans peuzel je dan vrijheidsgraden op en kun je alle mogelijke problemen (vb. multicollineariteit, endogeniteit) gaan verwachten.
Nochtans is dit eigenlijk niet zo moeilijk. R² is immers het kwadraat van de multiple correlatiecoëfficient R, en dit is de correlatie tussen de verwachte waarde en de geobserveerde waarde.
Zolang software je toelaat om bij een analyse een nieuwe vector met de 'predicted value' aan te maken, kun je dus zelf de Squared R berekenen.
R² = corr(pred,obs)²
Ter info: R² geeft aan welk deel van de variantie verklaard wordt door het model. Een reden waarom deze parameter enkel bij OLS-schattingen gegeven wordt is allicht dat OLS-schattingen deze verklaring maximaliseren (soms met vertekeningen van de effecten of de fout daarrond als kostprijs). Zoals ik al heb geschreven is de GENLIN proc in SPSS handiger dan REGRESSION, en geven ML-schattingen onder bepaalde assumpties exact dezelfde schattingen als OLS-schattingen, zodat bovenstaande werkwijze niet onverantwoord is. Vergeet verder niet dat R² een slechte toets is voor de kwaliteit van het model. Immers: R² zal NOOIT dalen bij wanneer extra verklarende variabelen toegevoegd worden. Nochtans peuzel je dan vrijheidsgraden op en kun je alle mogelijke problemen (vb. multicollineariteit, endogeniteit) gaan verwachten.
maandag 5 oktober 2009
Vrijheidsgraden
Niemand weet precies wat vrijheidsgraden zijn, maar in de statistiek kan je er niet omheen.
De intuïtieve interpretatie is dat vrijheidsgraden het maximum zijn van de onafhankelijke rijen en kolommen van je matrix waarop je een statistiek hebt berekend, gegeven de schattingen die reeds gebeurd zijn. Bijvoorbeeld: om een variantie te berekenen heb je eerst een gemiddelde nodig. Welnu, je gemiddelde kan variëren volgens alle eenheden in de steekproef, maar eens je een gemiddelde hebt, kan je steeds de waarde van de laatste eenheid berekenen. Je hebt dus één vrijheidsgraad opgesoupeerd.
Een Chi²-test en een t-test hebben één enkele vrijheidsgraadparameter, een F-test heeft er twee (teller en noemer), omdat dit een ratio-test is.
Meer vrijheidsgraden betekent dat de test minder extreme waarden moet hebben om toch op een significante afwijking van de (nul)hypothese te wijzen.
De intuïtieve interpretatie is dat vrijheidsgraden het maximum zijn van de onafhankelijke rijen en kolommen van je matrix waarop je een statistiek hebt berekend, gegeven de schattingen die reeds gebeurd zijn. Bijvoorbeeld: om een variantie te berekenen heb je eerst een gemiddelde nodig. Welnu, je gemiddelde kan variëren volgens alle eenheden in de steekproef, maar eens je een gemiddelde hebt, kan je steeds de waarde van de laatste eenheid berekenen. Je hebt dus één vrijheidsgraad opgesoupeerd.
Een Chi²-test en een t-test hebben één enkele vrijheidsgraadparameter, een F-test heeft er twee (teller en noemer), omdat dit een ratio-test is.
Meer vrijheidsgraden betekent dat de test minder extreme waarden moet hebben om toch op een significante afwijking van de (nul)hypothese te wijzen.
Odds en percentageverschillen
We nemen een fictief voorbeeld. Een Engelsman heeft drie keer zoveel kans op een promotie binnen 5 jaar na aanwerving dan een Belg. De odds ratio is dan 3. De kans op een promotie in België is echter ook 34.5 keer groter dan de kans dat er geen promotie is. Het aandeel in het UK van werknemers met een promotie binnen een groep die vijf jaar opgevolgd wordt laten we variëren van 92% in scenario A tot 50% in scenario B. De gegeven parameters worden hieronder in het vet aangegeven.
pct.be = 34.5 / (1 + 34.5 ) = 0.9718 = 97.18%
pct.be – pct.uk = 97.18% – 92% = 5.18 pctpt.
odds = percent / ( 1 – percentage )
odds.uk = 0.92 / ( 1 – 0.92 ) = 0.92 / 0.08 = 11.5
odds.be = 3 * odds.uk = 3 * 11.5 = 34.5 QED
Het kan dus zijn dat de kans driemaal groter is, maar dat dit slechts een verschil van 5 percentagepunten betekent.
odds.be = 3 * odds.uk = 3 * 1 = 3
pct = odds / ( 1 + odds )
pct.be = 3 / (1 + 3 ) = 0.75 = 75 %
pct.be – pct.uk = 75 % – 50 % = 25 pctpt. QED
Hetzelfde verschil in kansen geeft nu 25 percentpunt verschil in aandelen.
Let ook op, de odds ratio (OR) is de verhouding van de odds, niet van de percentages! Bijvoorbeeld: neem pct.be = .75 en pct.uk = .60, dan is de verhouding 1.25 maar de odds ratio is 2. Dat wil zeggen dat de kans tweemaal groter is, maar het aandeel slechts 1.25 maal groter.
Secenario A
pct = odds / ( 1 + odds )pct.be = 34.5 / (1 + 34.5 ) = 0.9718 = 97.18%
pct.be – pct.uk = 97.18% – 92% = 5.18 pctpt.
odds = percent / ( 1 – percentage )
odds.uk = 0.92 / ( 1 – 0.92 ) = 0.92 / 0.08 = 11.5
odds.be = 3 * odds.uk = 3 * 11.5 = 34.5 QED
Het kan dus zijn dat de kans driemaal groter is, maar dat dit slechts een verschil van 5 percentagepunten betekent.
Secenario B
odds.uk = 0.50 / ( 1 – 0.50 ) = 0.50 / 0.50 = 1odds.be = 3 * odds.uk = 3 * 1 = 3
pct = odds / ( 1 + odds )
pct.be = 3 / (1 + 3 ) = 0.75 = 75 %
pct.be – pct.uk = 75 % – 50 % = 25 pctpt. QED
Hetzelfde verschil in kansen geeft nu 25 percentpunt verschil in aandelen.
Let ook op, de odds ratio (OR) is de verhouding van de odds, niet van de percentages! Bijvoorbeeld: neem pct.be = .75 en pct.uk = .60, dan is de verhouding 1.25 maar de odds ratio is 2. Dat wil zeggen dat de kans tweemaal groter is, maar het aandeel slechts 1.25 maal groter.
dinsdag 29 september 2009
Partiële correlatie
Partiële correlatie is vergelijkbaar met een gecontroleerd effect in regressies. Dus ik dacht: laten we eens kijken naar de gestandaardiseerde bèta's. Wel: die geven niet precies hetzelfde resultaat. De manier om met een regressie de partiële correlatie te bekomen staat uitgelegd op deze pagina:
http://faculty.chass.ncsu.edu/garson/PA765/partialr.htm (zie 'residual method')
De gestandaardiseerde bèta's hebben meer gemeen met de semi-partiële of 'part' correlatie. Dit staat op de volgende pagina met handen en voeten uitgelegd:
http://luna.cas.usf.edu/~mbrannic/files/regression/Partial.html
Praktische werkwijze voor de part correlatie:
http://www.education.umd.edu/EDMS/fac/Hancock/Course_Materials/EDMS651/15.EDMS651partialcorr.pdf
http://faculty.chass.ncsu.edu/garson/PA765/partialr.htm (zie 'residual method')
De gestandaardiseerde bèta's hebben meer gemeen met de semi-partiële of 'part' correlatie. Dit staat op de volgende pagina met handen en voeten uitgelegd:
http://luna.cas.usf.edu/~mbrannic/files/regression/Partial.html
Praktische werkwijze voor de part correlatie:
http://www.education.umd.edu/EDMS/fac/Hancock/Course_Materials/EDMS651/15.EDMS651partialcorr.pdf
vrijdag 25 september 2009
Dummy codering: macro voor SPSS
Om het gesukkel met REGRESSION wat te verlichten, hier een macro voor simple dummy coding van de variabele 'orgvar' met 3 levels. Je zal nu drie variabelen krijgen:
orgvar1 = 1 als orgvar = 1, anders 0
orgvar2 = 1 als orgvar = 2, anders 0
orgvar3 = 1 als orgvar = 3, anders 0
DEFINE macrodummycoding
(orig=!CHAREND('/')
/values=!CHAREND('/')).
!DO !x !IN (!values)
DO IF !orig = !x.
COMPUTE !CONCAT(!orig,!x) = 1.
ELSE IF missing(!orig) = 1.
COMPUTE !CONCAT(!orig,!x) = $SYSMIS.
ELSE.
COMPUTE !CONCAT(!orig,!x) = 0.
END IF.
!DOEND
EXECUTE.
!ENDDEFINE.
macrodummycoding
orig = orgvar /
values = 1 2 3/.
Voor wie het wil geloven. Het kan sneller en gemakkelijker met Stata.
orgvar1 = 1 als orgvar = 1, anders 0
orgvar2 = 1 als orgvar = 2, anders 0
orgvar3 = 1 als orgvar = 3, anders 0
DEFINE macrodummycoding
(orig=!CHAREND('/')
/values=!CHAREND('/')).
!DO !x !IN (!values)
DO IF !orig = !x.
COMPUTE !CONCAT(!orig,!x) = 1.
ELSE IF missing(!orig) = 1.
COMPUTE !CONCAT(!orig,!x) = $SYSMIS.
ELSE.
COMPUTE !CONCAT(!orig,!x) = 0.
END IF.
!DOEND
EXECUTE.
!ENDDEFINE.
macrodummycoding
orig = orgvar /
values = 1 2 3/.
Voor wie het wil geloven. Het kan sneller en gemakkelijker met Stata.
maandag 21 september 2009
REGRESSION vs GENLIN
REGRESSION
Pro
OLS
Durbin-Watson
Contra
Manueel interactie-effecten en dummies construeren
Durbin-Watson haalt niets uit bij paneldata
GENLIN
Pro
Interactie-effecten in het model te specificeren
Factorvariabelen worden via simple coding in dummies omgezet
Voor die dummies krijg je dan meteen een ANOVA toets (handug!)
Contra
Niet zo simpel
ML is niet de standaardschatting, je moet dit instellen
(Scale)-variabele is nogal mysterieus
Niet gericht op het verklaren van de variantie
Geen R² (zie recentere post voor een oplossing)
Geen pseudo-R² (cf. logistische regressie)
Pro
OLS
Durbin-Watson
Contra
Manueel interactie-effecten en dummies construeren
Durbin-Watson haalt niets uit bij paneldata
GENLIN
Pro
Interactie-effecten in het model te specificeren
Factorvariabelen worden via simple coding in dummies omgezet
Voor die dummies krijg je dan meteen een ANOVA toets (handug!)
Contra
Niet zo simpel
ML is niet de standaardschatting, je moet dit instellen
(Scale)-variabele is nogal mysterieus
Niet gericht op het verklaren van de variantie
Geen R² (zie recentere post voor een oplossing)
Geen pseudo-R² (cf. logistische regressie)
zondag 20 september 2009
Kookboek statistiek
De mensen van UCLA hebben een walk through voor de REGRESSION proc in SPSS (en Stata en SAS) gemaakt. Extreem handig is het hoofdstuk Regression Diagnostics. Ze leggen uit hoe je de assumpties toetst:
- Outliers en hun leverage (invloed op de coëfficiënten)
- Homoskedasticiteit
- Lineariteit: Q-Q plot, skewness, kurtosis
- Onafhankelijkheid van de waarnemingen (vs autocorrelatie): Durbin-Watson test
Normaliseren
Natuurlijk kun je logaritmeren, kwadrateren, etc. Maar ik vroeg me af wat je nu best doet als je een verdeling hebt met een te hoge kurtosis en een skewness van 0. Volgens mij zal een het logaritmeren enkel de rechtse scheefheid oplossen.
Ik ben het nog nooit tegengekomen, maar volgende formule is misschien een experiment waard:
x --> x'
x' = ((x - Ex)^2)^(1/4) * x/(x^2)^(1/2) + Ex
Waar je achtereenvolgens centreert (-Ex, gemiddelde van x), de afwijking absoluut maakt door te kwadrateren, deze vermindert door er tegelijk de 4de wortel van te nemen (je zou nu ook kunnen logaritmeren), opnieuw het gepaste teken geeft door te vermenigvuldigen met de ratio van x en z'n absolute waarde en dan decentreert door er weer het gemiddelde bij te tellen.
Dit zou de verdeling leptokurtischer moeten maken.
Ik ben het nog nooit tegengekomen, maar volgende formule is misschien een experiment waard:
x --> x'
x' = ((x - Ex)^2)^(1/4) * x/(x^2)^(1/2) + Ex
Waar je achtereenvolgens centreert (-Ex, gemiddelde van x), de afwijking absoluut maakt door te kwadrateren, deze vermindert door er tegelijk de 4de wortel van te nemen (je zou nu ook kunnen logaritmeren), opnieuw het gepaste teken geeft door te vermenigvuldigen met de ratio van x en z'n absolute waarde en dan decentreert door er weer het gemiddelde bij te tellen.
Dit zou de verdeling leptokurtischer moeten maken.
vrijdag 18 september 2009
Autocorrelatie
Geüpdatet op 8 januari 2014 maar nog steeds niet goed. Sorry! Investeer in een goed boek.
Autocorrelatie is een schending van de OLS assumpties ('spherical error variance'). De schatting van de coëfficiënten zelf is unbiased, maar de variantie van de schatter (standaardfout en dus significantie) zal worden onderschat.
Voorwaarden voor het ontbreken van autocorrelatie:
d > bovenlimiet
4-d > onderlimiet
SORT CASES BY PC_recon_select. SPLIT FILE LAYERED BY PC_recon_select.
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS BCOV R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/DEPENDENT drift_yoy
/METHOD=ENTER RSZ_jaar
/RESIDUALS DURBIN HIST(ZRESID)
/SAVE RESID(Cres).
DO IF RSZ_jaar > 1997.
COMPUTE teller = (Cres - lag(Cres,1))**2.
COMPUTE noemer = Cres**2.
END IF.
EXECUTE.
USE ALL.
SPLIT FILE OFF.
DESCRIPTIVES VARIABLES=teller noemer
/STATISTICS=MEAN SUM STDDEV MIN MAX.
Voor sterkere correlatie (higher order: langere lags) en wanneer een van de onafhankelijke variabelen een lag van de afhankelijke is, gebruikt men de Breusch–Godfrey test.
[...]
This involves an auxiliary regression, wherein the residuals obtained from estimating the model of interest are regressed on (a) the original regressors and (b) k lags of the residuals, where k is the order of the test. The simplest version of the test statistic from this auxiliary regression is TR2, where T is the sample size and R2 is the coefficient of determination. Under the null hypothesis of no autocorrelation, this statistic is asymptotically distributed as ?2 with k degrees of freedom.
...
F. Hayashi (2000), Econometrics, §1.1 p. 11
Definitie
Autocorrelatie betekent dat de residuen (in een tijdsreeks) van een eenheid met elkaar gecorreleerd zijn. Dit kan bijvoorbeeld voor de hand liggen tussen twee opeenvolgende periodes. Meet men bijvoorbeeld oogstvolumes per kwartaal, dan zal een lag van 4 kwartalen (seizoen op seizoen) een sterkere correlatie opleveren. Men spreekt ook van seriële correlatie.Autocorrelatie is een schending van de OLS assumpties ('spherical error variance'). De schatting van de coëfficiënten zelf is unbiased, maar de variantie van de schatter (standaardfout en dus significantie) zal worden onderschat.
Tests
De meest gebruikelijke test is de Durbin-Watson test. Dit is op te vragen bij een lineaire regressie. De waarde van D-W ligt steeds tussen 0 en 4, en idealiter op 2. Afwijkingen zijn een teken aan de wand dat er iets loos is. Op wikipedia vindt je een beschouwing van de kritische waarden voor d, waar de onder- en bovenlimieten iets anders geïnterpreteerd moeten worden dan bij een gewoon betrouwbaarheidsinterval.Voorwaarden voor het ontbreken van autocorrelatie:
d > bovenlimiet
4-d > onderlimiet
In SPSS
Voor zover ik weet moet men bij paneldata de test zelf maken, door voor elke eenheid een aparte analyse te maken en de residuen te bewaren. In dit geval is d niet gewoon het gemiddelde van de verschillende d's, maar de ratio van de som van de teller van alle d's en de som van de noemer van alle d's. Ik vind dat niet praktisch, maar soit. In onderstaand voorbeeld is PC_recon_select de ID-variabele, en RSZ_jaar de (enige) regressor.SORT CASES BY PC_recon_select. SPLIT FILE LAYERED BY PC_recon_select.
REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS BCOV R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/DEPENDENT drift_yoy
/METHOD=ENTER RSZ_jaar
/RESIDUALS DURBIN HIST(ZRESID)
/SAVE RESID(Cres).
DO IF RSZ_jaar > 1997.
COMPUTE teller = (Cres - lag(Cres,1))**2.
COMPUTE noemer = Cres**2.
END IF.
EXECUTE.
USE ALL.
SPLIT FILE OFF.
DESCRIPTIVES VARIABLES=teller noemer
/STATISTICS=MEAN SUM STDDEV MIN MAX.
Voor sterkere correlatie (higher order: langere lags) en wanneer een van de onafhankelijke variabelen een lag van de afhankelijke is, gebruikt men de Breusch–Godfrey test.
[...]
This involves an auxiliary regression, wherein the residuals obtained from estimating the model of interest are regressed on (a) the original regressors and (b) k lags of the residuals, where k is the order of the test. The simplest version of the test statistic from this auxiliary regression is TR2, where T is the sample size and R2 is the coefficient of determination. Under the null hypothesis of no autocorrelation, this statistic is asymptotically distributed as ?2 with k degrees of freedom.
Oplossing
De assumptie van 'spherical error variance' is niet noodzakelijk bij minder restrictieve schattingen dan OLS. Ook kan de standaardfout gecorrigeerd worden.- Generalized least squares
- Newey–West standard errors
Context
Loonvorming...
Referenties
Wikipedia - AutocorrelationF. Hayashi (2000), Econometrics, §1.1 p. 11
donderdag 17 september 2009
Effect dummy codering
vier sectoren, referentiesector D
Normale dummy codering
d1 sector A = 1, sector B, C, D = 0
d2 sector B = 1, sector A, C, D = 0
d3 sector C = 1, sector A, B, C = 0
intercept = verwachte waarde sector D, te vermeerderen met d1, d2 of d3 voor sector A, B of C
Effect dummy codering
d1 sector A = 1, sector B, C = 0, sector D = -1
d2 sector B = 1, sector A, C = 0, sector D = -1
d3 sector C = 1, sector A, B = 0, sector D = -1
intercept = (ongewogen) verwachte waarde (het gemiddelde van de verwachte waardes in de vier sectoren), te vermeerderen met d1, d2 of d3 voor sector A, B of C, te verminderen met d1, d2 én d3 voor sector D
Effect dummy codering drukt dus uit in welke mate een sector afwijkt van "de norm", niet van een concrete categorie.
Context
Project loonvorming: we willen weten of de werkloosheidselasticiteit van de lonen varieert tussen de paritaire comités. Effect dummy codering geeft een eigen betekenis aan de coëfficiënt van de werkloosheid.
Referenties
West et al. (1996) [titel...]
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/effect.htm
Normale dummy codering
d1 sector A = 1, sector B, C, D = 0
d2 sector B = 1, sector A, C, D = 0
d3 sector C = 1, sector A, B, C = 0
intercept = verwachte waarde sector D, te vermeerderen met d1, d2 of d3 voor sector A, B of C
Effect dummy codering
d1 sector A = 1, sector B, C = 0, sector D = -1
d2 sector B = 1, sector A, C = 0, sector D = -1
d3 sector C = 1, sector A, B = 0, sector D = -1
intercept = (ongewogen) verwachte waarde (het gemiddelde van de verwachte waardes in de vier sectoren), te vermeerderen met d1, d2 of d3 voor sector A, B of C, te verminderen met d1, d2 én d3 voor sector D
Effect dummy codering drukt dus uit in welke mate een sector afwijkt van "de norm", niet van een concrete categorie.
Context
Project loonvorming: we willen weten of de werkloosheidselasticiteit van de lonen varieert tussen de paritaire comités. Effect dummy codering geeft een eigen betekenis aan de coëfficiënt van de werkloosheid.
Referenties
West et al. (1996) [titel...]
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/effect.htm
dinsdag 15 september 2009
Elasticiteiten
LaTeX using MathJax.
Update na aanpassing taal & structuur en revisie door Bart Capeau. Zijn bijdrage bevat trouwens evenveel wijsheid in minder woorden.
Probleem
Sommige gewoontes hebben we eenvoudigweg overgenomen. Als een leek dan interesse toont, is een verklaring meestal half zo gestructureerd als zijn vraag. Het meten van elasticiteiten door variabelen als logaritme te formuleren getuigt van zo'n bedrieglijke eenvoud.
Uitleg
Voor het meten van de Wage Curve hebben we het loon gelinkt aan de werkloosheid. Lineair ziet zo'n functie eruit als volgt:
$$ W = A + bU $$Met loon W, intercept A, werkloosheid U en coëfficiënt b. Stel nu dat we deze oefening maken in 87 landen, en we beschikken niet over een systeem om de lonen in prijspeilpariteiten uit te drukken. In dat geval hebben we nood aan een dimensieloze coëfficiënt b. Dat kan door te standaardiseren, maar we willen liever nog een stap verder gaan en uitdrukken hoe de relatieve verandering in één variabele zich verhoudt tot de relatieve verandering in een andere. Dat is niet zo'n exotische vraag als het lijkt, enkele voorbeelden:
- Als de kans op winst verdubbelt, hoeveel procent meer mensen zullen dan op de lotto spelen?
- Als je een bonus krijgt van een kwart van je inkomen, hoeveel meer auto's komen er dan in je garage staan?
De gepaste econometrische oplossing voor het meten van puntelasticiteiten is het nemen van de log van de afhankelijke variabele en de onafhankelijke variabele waarvan je de elasticiteit wil berekenen. Controlevariabelen mogen in elke vorm verkeren. In het voorbeeld hieronder is er slechts één variabele aan de rechterzijde van de vergelijking, namelijk de werkloosheid U.
$$ \ln(W) = A + d \ln U $$
Laten we dit eens exponentiëren:
$$ W = \exp(A + d\ln U ) $$
Zo krijgen we een uitdrukking met factoren:
$$ W = \exp(A) \exp(d \ln U) $$
$$ W = \exp(A) \exp(d)^{\ln U} $$
Hier staat dat een vermeerdering van de werkloosheid met 1 log (dit is factor e ~ 2.72) een verandering in het loon met factor $ \exp(d) $ teweeg brengt. Een andere uitdrukking is:
$$ W = \exp(A) U^d $$
Bijgevolg is de verandering in W gelijk aan
$$ \frac{W'}{W} = \left(\frac{U'}{U}\right)^d $$
We zullen nu aantonen dat $d$ de puntelasticiteit is. Definiëren we daartoe de boogelasticiteit BE:
$$ \begin{aligned} BE & = \frac{\frac{W'-W}{W}} {\frac{U'-U}{U}} \\
& = \frac{\frac{W'}{W}-1} {\frac{U'}{U}-1} \\
& = \frac{\left(\frac{U'}{U}\right)^{d}-1} {\frac{U'}{U}-1}
\end{aligned} $$
Als het verschil in U zeer klein is, delen we door nul. Een gewone rekenmachine kan dit niet bereken, maar we vertrouwen de stelling van L'Hopital dat in zo'n limietgeval de oplossing gelijk is aan de ratio van de afgeleides van tellen en noemer. Bij de teller is dit $d$, bij de noemer 1. De puntelasticiteit is dus $d$.
Context
Project Loonvorming: naast het verklaren van de loondrift onderzoeken we in welke mate economische schokken (i.c. werkloosheid) de loonvorming beïnvloeden. Volgens Blanchflower & Oswald is er een quasi universele 'wage curve' die gekenmerkt wordt door een werkloosheidselasticiteit van het loon van -0.10. We onderzoeken of hier variatie in bestaat naargelang de paritaire comités.Referenties
Nijkamp & Poot (2005) 'Last word on the Wage Curve'Samuel L Baker - Non linear regression
Bijdrage-van-Bart
maandag 7 september 2009
ANOVA of T-Test?
Er is geen verschil tussen een ONEWAY ANOVA en T-test. De F-toets die door de variantieanalyse gebruikt wordt is een gekwadrateerde t-toets. In SPSS kan je dus steeds ONEWAY gebruiken, ter vervanging van de independent samples t-test of de ANOVA test bij MEANS. Je kan subgroepen vergelijken via post hoc tests.
Ook met het General Linear Model kan je ONEWAY vervangen, maar dit is complexer. Het komt erop neer dat bij een bepaalde assumptie van de storingsterm een maximum likelihood schatting dezelfde resultaten geeft als een kleinste kwadratenschatting.
Ook met het General Linear Model kan je ONEWAY vervangen, maar dit is complexer. Het komt erop neer dat bij een bepaalde assumptie van de storingsterm een maximum likelihood schatting dezelfde resultaten geeft als een kleinste kwadratenschatting.
donderdag 3 september 2009
Correlatie- en regressiecoëfficiënten
Verband
Pearson Correlatie = bèta-coëfficiënt (bivariaat model mét intercept)
Pearson Correlatie
r = S(x,y) / S(x)*S(y)
Vraag
Waarom is een betacoëfficiënt niet gelijk bij een model met of zonder intercept?
Pearson Correlatie = bèta-coëfficiënt (bivariaat model mét intercept)
Pearson Correlatie
r = S(x,y) / S(x)*S(y)
Vraag
Waarom is een betacoëfficiënt niet gelijk bij een model met of zonder intercept?
maandag 31 augustus 2009
Reële en nominale groei
Iedereen kent de volgende vuistregel:
Reële groei = Nominale groei - Inflatie
Bij benadering gaat deze formule op als de groeicijfers laag zijn. Maar als we correcte uitspraken willen doen over de economische evolutie in China of Zimbabwe, dan zijn dit de exacte formules:
Reële groei = (Nominale groei + 1) / (Inflatie + 1) -1
Inflatie = (Nominale groei - Reële groei) / (Reële groei + 1)
Nominale groei = (Reële groei +1) * (Inflatie + 1) -1
Nominale groei = Reële groei + Inflatie + Reële groei * Inflatie
In die laatste formule zie je waar de vuistregel vandaan komt: de laatste term is bijna 0.
Reële groei = Nominale groei - Inflatie
Bij benadering gaat deze formule op als de groeicijfers laag zijn. Maar als we correcte uitspraken willen doen over de economische evolutie in China of Zimbabwe, dan zijn dit de exacte formules:
Reële groei = (Nominale groei + 1) / (Inflatie + 1) -1
Inflatie = (Nominale groei - Reële groei) / (Reële groei + 1)
Nominale groei = (Reële groei +1) * (Inflatie + 1) -1
Nominale groei = Reële groei + Inflatie + Reële groei * Inflatie
In die laatste formule zie je waar de vuistregel vandaan komt: de laatste term is bijna 0.
vrijdag 28 augustus 2009
Stationaire functies
Eng. Stationarity
Een stationaire functie is onafhankelijk van de tijd. Niet-stationaire functies zijn m.a.w. trends doorheen de tijd.
Tussen twee niet-stationaire variabelen kan een stationaire relatie bestaan. De koersen van aandelen en futures zijn bijvoorbeeld beide niet-stationaire functies, maar als één op de andere geregresseerd wordt, krijgen we een stationaire functie. Dit heet coïntegratie (Eng. cointegration). Men test dit met een Dickey-Fuller test voor de residuen, waarbij de nulhypothese is dat deze niet-stationair zijn.
Gelijkaardig aan het voorgaande, is het mogelijk om een niet-stationaire functie stationair te maken door detrending. Een eenvoudige methode is het opnemen van tijd bij de verklarende variabelen. Dit is courant bij variabelen die conjunctuurgevoelig zijn, zoals economische groei.
Heteroskedasticiteit is een vorm van niet-stationariteit van de variantie. Op wikipedia wordt het mooie voorbeeld van een cymbaalslag gegeven. Zowel het gemiddelde volume als de variantie van de frequentie (in akoestische zin) neemt af doorheen de tijd door het uitdoven en verminderen van de trillingen.
Referenties
Maritza López Novella (2001) 'Salaires conventionnels et effectifs en Belgique: une analyse empirique et macroéconomique des écarts', Working Paper 2-01, Bureau fédéral du Plan.
Context
Project Loonvorming (verklaring van de loondrift 1996-2006): we gebruiken dezelfde afhankelijke variabele (zij het niet gelogaritmeerd), maar omwille van de kleinere tijdspanne i.v.m. de studie van het Planbureau zie ik géén voortschrijdend gemiddelde. Bovendien is het sinds de invoering van de loonnorm heel aannemelijk dat er geen trendmatige vergroting van de loondrift is. Ten slotte vonden zij in hun modellen niet eens evidentie voor autoregressie. We kunnen dus concluderen dat niet-stationariteit geen issue is.
Een stationaire functie is onafhankelijk van de tijd. Niet-stationaire functies zijn m.a.w. trends doorheen de tijd.
Tussen twee niet-stationaire variabelen kan een stationaire relatie bestaan. De koersen van aandelen en futures zijn bijvoorbeeld beide niet-stationaire functies, maar als één op de andere geregresseerd wordt, krijgen we een stationaire functie. Dit heet coïntegratie (Eng. cointegration). Men test dit met een Dickey-Fuller test voor de residuen, waarbij de nulhypothese is dat deze niet-stationair zijn.
Gelijkaardig aan het voorgaande, is het mogelijk om een niet-stationaire functie stationair te maken door detrending. Een eenvoudige methode is het opnemen van tijd bij de verklarende variabelen. Dit is courant bij variabelen die conjunctuurgevoelig zijn, zoals economische groei.
Heteroskedasticiteit is een vorm van niet-stationariteit van de variantie. Op wikipedia wordt het mooie voorbeeld van een cymbaalslag gegeven. Zowel het gemiddelde volume als de variantie van de frequentie (in akoestische zin) neemt af doorheen de tijd door het uitdoven en verminderen van de trillingen.
Referenties
Maritza López Novella (2001) 'Salaires conventionnels et effectifs en Belgique: une analyse empirique et macroéconomique des écarts', Working Paper 2-01, Bureau fédéral du Plan.
Context
Project Loonvorming (verklaring van de loondrift 1996-2006): we gebruiken dezelfde afhankelijke variabele (zij het niet gelogaritmeerd), maar omwille van de kleinere tijdspanne i.v.m. de studie van het Planbureau zie ik géén voortschrijdend gemiddelde. Bovendien is het sinds de invoering van de loonnorm heel aannemelijk dat er geen trendmatige vergroting van de loondrift is. Ten slotte vonden zij in hun modellen niet eens evidentie voor autoregressie. We kunnen dus concluderen dat niet-stationariteit geen issue is.
donderdag 27 augustus 2009
Bruto Binnenlands Product (BBP)
Eng. Gross Domestic Product (GDP)
Bron: EUROSTAT
Onderverdelingen:BB
Real GDP growth rate (EUROSTAT)
Growth rate of GDP volume - percentage change on previous year
Short Description: Gross domestic product (GDP) is a measure of the economic activity, defined as the value of all goods and services produced less the value of any goods or services used in their creation.
The calculation of the annual growth rate of GDP volume is intended to allow comparisons of the dynamics of economic development both over time and between economies of different sizes. For measuring the growth rate of GDP in terms of volumes, the GDP at current prices are valued in the prices of the previous year and the thus computed volume changes are imposed on the level of a reference year; this is called a chain-linked series. Accordingly, price movements will not inflate the growth rate.
Als ik op basis hiervan een formule zou opstellen, wordt het deze:
Reële BBP-groei (t) = ( BBPt / PPt-1 ) / ( BBPt-1 / PPt-1 )
... maar ze is mis
Bron: EUROSTAT
Onderverdelingen:BB
- BBP aan factorkosten (factor costs): abstractie van belastingen en subsidies
- BBP aan marktprijzen (market prices)
- BBP aan lopende prijzen (current prices)
- BBP aan vaste prijzen (in volumes)
Real GDP growth rate (EUROSTAT)
Growth rate of GDP volume - percentage change on previous year
Short Description: Gross domestic product (GDP) is a measure of the economic activity, defined as the value of all goods and services produced less the value of any goods or services used in their creation.
The calculation of the annual growth rate of GDP volume is intended to allow comparisons of the dynamics of economic development both over time and between economies of different sizes. For measuring the growth rate of GDP in terms of volumes, the GDP at current prices are valued in the prices of the previous year and the thus computed volume changes are imposed on the level of a reference year; this is called a chain-linked series. Accordingly, price movements will not inflate the growth rate.
Als ik op basis hiervan een formule zou opstellen, wordt het deze:
Reële BBP-groei (t) = ( BBPt / PPt-1 ) / ( BBPt-1 / PPt-1 )
... maar ze is mis
Abonneren op:
Posts (Atom)