Labour Stats: 2010

donderdag 25 november 2010

Data Ninja

http://dataninja.wordpress.com/category/stata/

donderdag 18 november 2010

Error bars en error area

Zoals iedereen weet is Stata fantastisch. Soms moet je het een en ander wel wat forceren, zoals error bars en areas. Drie links:

dinsdag 9 november 2010

Pearson correlatie: interpretatie en statistische intuïtie

Update 30 december 2014

"Hoe moeten we dit nu interpreteren?" - Het is een terechte vraag bij elke parameter die je voorlegt en dus zeker bij de onvermijdelijke Pearson correlatiecoëfficiënt. Deze geeft weer hoe sterk variabelen samenhangen. Het teken toont in welke richting. Zo'n simpele correlatie zal je typisch gebruiken bij een exploratieve analyse. Het is ook een belangrijke bouwsteen van allerhande regressieanalyses, factoranalyses, en SEM-modellen. Een tussenstap tussen eenvoudige correlaties en deze technieken zijn de (semi)partiële correlaties, waar je abstractie maakt van bepaalde andere variabelen die een effect mediëren.

Niemand kan echter precies zeggen hoe je dit cijfer, dat tussen -1 en 1 ligt, moet interpreteren. Het is een uitdrukking van de sterkte van een lineair verband meet. Plot de variabelen op een assenstelsel, en je zou een puntenwolk moeten zien waar zich een rechte lijn in aftekent. Kwadrateer je de correlatie, dan krijg je te zien hoeveel procent van de totale variantie door die rechte lijn wordt gevat. Dat is de technische interpretatie, maar meestal kwadrateren we niet. We hanteren in de plaats een vuistregel die sterk varieert van discipline tot discipline - geneeskundige statistiek, sociometrie, psychometrie of econometrie. In de handboeken zeilt men ook liever om de interpretatie heen. Mijn interpretatie (in sociologie & arbeidseconomie) is dit:

r < .10: geen verband
r < .30: zwak verband
r < .50: matig verband
r < .80: sterk verband
r > .80: zeer sterk verband

Een experiment

Als alle punten van de puntenwolk exact op een rechte lijn liggen, dan is de correlatie perfect (r = 1). Hoge correlaties krijg je echter ook bij verbanden die helemaal niet zo sterk zijn, dus laat je niet misleiden. Hier een klein experiment dat je in Excel kan doen:

Maak een dataset voor 37 eenheden die elk 10 keer geobserveerd worden (dus 370 observaties in totaal, voor de snelle rekenaar). Eén maat is random veranderlijk over alle observaties, de andere is het gemiddelde per eenheid. We kunnen enige correlatie verwachten, want de twee variabelen zijn niet onafhankelijk, maar voor elke eenheid zijn er ongeveer evenveel cases onder als boven het gemiddelde, wat de correlatie laag zou moeten houden.

Welnu, de Pearson correlatie tussen de veranderlijke en haar gemiddeldes is - met de random getallen die ik verkreeg - 0.9974. Onze statistische intuïtie is duidelijk feilbaar.

Kladblok voor gevorderden

Vroeger was ik fan van Crimson Editor, maar aangezien de ontwikkeling is stopgezet, ging ik verder met Notepad ++.

Voordelen

Geen tekstopmaak, dus geen nutteloze markup. Zeer nuttig bij het copy-pasten uit websites.
'Mono(space)' of 'console'-lettertypes voor een vaste letterafstand
Syntax highlighting voor statistische programma's (soms moet je een plugin inladen)
Verticaal tekst selecteren (kolommen)
Gratis

donderdag 21 oktober 2010

LaTeX Tables

updated September 2013

I am not a big believer of LaTeX, but I do use it. One reason to dislike LaTeX is the way you need to make tables. It is very easy to mess up and very hard to debug.

From your stats package to LaTeX

My workflow is the following: make every table with just data in Excel, then convert using excel2latex and paste it in your .tex file. If you happen to have crazy formulas in your table, do the same but use codes in your excel table which you then replace by the formulas in LaTeX.

Do not, as a rule, use tabout-like output that Stata delivers. I prefer a little adjustment of Excel matrix output, which is good nowadays, over the burden to look into the LaTeX puzzle. Face it: when we use tables, it's generally for several models or with a combination of different analyses. So for me -tabout- is worthless.

Adjustments to LaTeX tables

The standard LaTeX-layout, which is good enough, has very large margins. That's nice, but it limits your tables. To cope with that, I've read about two solutions:

The tabularx package
Put the table inside a minipage and scale it to fit

We're left with just a few more issues:

Landscape pages (fear, anger, hate!)
Wrapping lines
Wide tables (through -tabularx-)

As for landscapes, I have no clue for the moment. You may want to check here. And pdflscape may be it.

Wrapping lines I've done. It's cumbersome. Basically, you will want to limit the size of a column. You do that through specifying p{3 cm} in your {l l l c r r r c} series of column specifications, where each of l, r, c refers to a column that is left aligned, right aligned or centered. p{} replaces such a specification, so you lose your control over alignment! To solve this issue, you need yet another package: arrays. Then, and I'm not joking, your wrapped left aligned column should be specified as:

>{\raggedright\arraybackslash}p{width}

It is really that stupid. Never saw a > in LaTeX syntax before? Neither did I. As always, there will be some logic behind it, for which a Ph.D. level IQ will suffice, but even if it is understandable, we don't want to waste our time figuring out.

Links

If you don't want to google, hit some old bookmarks (2010):

woensdag 20 oktober 2010

Word of LaTeX?

Dingen die goed werken, interesseren mij, en men zegt dat LaTeX goed werkt. Effectief, de output ziet er behoorlijk uit. Saai, maar consistent. Die twee dingen gaan samen en zijn voor bepaalde opdrachten gewenst.

Maar wat er bij mij niet ingaat is hoe je een tekst kunt schrijven in LaTeX. De markup code stuurt je in de war en tijdens het typen is de bladspiegel niet om aan te zien. Hou er rekening mee dat veel, zo niet de meeste, teksten vooral gelezen worden vóór ze afgedrukt of gefinaliseerd worden. Dat heet dan een werkdocument.

Eén optie is te starten in Word, en de finale versie in LaTeX te maken indien nodig. In veel gevallen zal dat niet kunnen, omdat er bijvoorbeeld een template opgelegd wordt door een consortium of een opdrachtgever.

Type de tekst in Word, tenzij er wiskundige afleidingen in voorkomen, dan ga je meteen aan de slag in LaTeX.
Exporteer het bestand (.doc) naar LaTeX (.tex) met Word-to-LaTeX
Maak de tabellen altijd in Excel
Converteer de tabel naar LaTeX met Excel2latex
Voeg de tabellen in en check de cross-references
Kuis de opmaak

\title{titel hier} in de heading
\data{datum hier} in de heading
\maketitle als titel
\section{} en \subsection{} als titels van de paragrafen
\usepackage{verbatim} in de heading en \begin{comment} \end{comment} om tijdelijk syntax weg te laten (vb. uit Word overgenomen marges)

Voordeel: je ziet meteen een behoorlijke tekst en moet alleen kleine wijzigingen doorvoeren in de .tex-file.

Nadeel: met het gratis programma worden formules overgenomen als afbeeldingen. Je kan ze dus niet bewerken. Er zijn enkele betalende alternatieven, zoals GrindEQ, die dit wel kunnen. Ze doen het echter niet noodzakelijk beter voor andere omzettingen.

De tweede optie is meteen een LaTeX document maken.

Werken met twee schermen is een must.
Voor documenten met veel verwijzingen, grafieken en formules is dit een must.
Grafieken kan je in één map plaatsen als pdf's, aangeduid via graphicspath. De kwaliteit van vectorafbeeldingen is niet te evenaren met .jpg/.bmp/.png of zelfs .tiff. Word kan overweg met .emf en .wmf, maar microsoft ontmoedigt deze formaten zelf in de recentere windows versies. Bovendien blijft consistent schalen een probleem in MS Office en is de controle over de bladspiegel onmogelijk. LaTeX daarentegen heeft eigen algoritmes om figuren een plaats te geven, die je desnoods kan overrulen.
Je kan de tex-file altijd downgraden naar een ander soort tekstbestand. Er is een optie om te exporten naar html en naar rdf, maar ik heb die nog niet aan de praat gekregen.
Het grootste probleem zijn de vreemde tekens, waar LaTeX niet mee overweg kan: een ö wordt in LaTeX \"{o}. Voor ç, û, etc. gelden gelijkaardige problemen. LaTeX verstaat deze karakters echt wél mits het oproepen van inputenc: \usepackage[utf8]{inputenc}. Dat kon gebruiksvriendelijker, natuurlijk.
Ik heb geen idee of de bibliografie dan ineens mee geëxporteerd wordt. Laten we het hopen.

Links

Een overzicht van de packages van LaTeX: http://philippleser.de/physics/latex

dinsdag 19 oktober 2010

Kaartjes maken in Stata

Er bestaat speciale software voor het maken van landkaarten met statistische informatie. Als ik die zou ontwikkelen, zou ik die InfoMaps dopen, dus waarschijnlijk heet het programma zo (edit: het programma heet MapInfo). Maar voor de arme assistent die het met zijn Stataatje moet doen, is er een oplossing:

spmap

Wat je in elk geval nodig hebt zijn Shapefiles. Die kun je dan omzetten naar punten op een assenstelsel, die de grenzen van de landen weergeven. En goede files vind je hier:

data: http://www.cdc.gov/epiinfo/europe.htm (programma EpiInfo)
nog meer data: http://www.diva-gis.org/gData
voorbeeld + kritische kijk op kaarten: http://www.themonkeycage.org/2009/02/mapping_religiosity_in_the_sta.html#comments

donderdag 14 oktober 2010

Reference managers

This post has been updated 9 November 2013: added JabRef

Routine work should be automatized. I remember writing my master thesis using a not so legal copy of Endnot X, which had a terrible memory leak. As a result, I had to restart my computer every hour - which took about 10 minutes! I didn't smoke cigarettes, so what a waste of time... However, the best part of my thesis was probably the bibliography.

Today we get all the fun for free. You may get rid of your boxes of EndNote and Reference Manager. They're too expensive and little innovative. There are two fresh, hip reference managers that rule the scientific world nowadays: Zotero and Mendeley. There is an additional and traditional tool I use with them when doing LaTeX-work: JabRef. I discuss pro's and cons, so you should understand why I choose for Zotero. Both are excellent research tools, but the functionality sticks to managing references. There may be broader tools to manage all of your research, such as One Note or Citavi. I don't know these programs and I am not a big believer.

Zotero

This program meets your needs. It integrates seamlessly with Word 2007 and syncs its catalogue (the references) with your free account at the Zotero server. Data can be synced with the Zotero server or your WebDAV server of choice. I use 4shared.com.

The good

Elegantly exports to many formats, including the files in a nice way. As a consequence, you can always return on your steps and use your old reference manager.
Neat integration in all major webbrowsers
BibTeX can be synced using the AutoZotBib plugin and the Spartan or the RobinTan translator.
It is open source

The bad

Each file has its folder and folders have nonsensical names, ruling out the use of Explorer
Interface is old fashioned, ineffective
Automatic indexing is lagging pdf import and unintuitive to turn of
Doesn't sync with Mendeley: you should work via RIS files that include the file path.

Mendeley

A proprietary copy of Zotero, that should sync with it, as well as with a BibTex-file, zo it could act as a bridge between those programs. The file manager is neat, quick and accurate. I regret Zotero doesn't sync back, so I could do part of the job in Mendeley. Mendely offers 1000 MB free cloud storage, which is nice. Prices go up after that, but for lightweight users, it may be a good deal.

The good

It syncs with Zotero. However, for large sqlite.data files, this becomes cumbersome and slow, as the syncing is continuous.
It natively syncs with a BibTex file, which is very good
The interface is nice and let's you read pdfs in the left pane, while having the reference column to the left.
You can always revert your decision, via RIS files as said before
Search results go quite deep into the references and are neatly shown

The bad

The browser integration is limited to a bookmarklet. This means you have to press and see whether you can import straight from the browser. If you do, you only download to your Mendeley account. Importing to your desktop program is a second step. I understand the cloud approach, but soon you'll leave free territory (considering a HD as free storage).
A deal breaker: there is no way to sort search results! What if you want a chronological overview by author? What if you want to see what journals were published in? These are common desires!
The thing with syncing large libraries.
It's proprietary and they've slowed down on updates.

JabRef

JabRef is a totally different breed from the first two. It is to Mendeley/Zotero what TexMaker is to Word. You basically get a list with references, screen wide, optionally linked to fixed folder paths.

The good

It's blazing fast to open and quick to search through.
Your database is a text-file, there is nothing to slow it down.
It's a bibtex file, which all software can read and what you need in LaTex.
Put it on Dropbox, google Drive, and the like, and you are always in sync.
You choose an appropriate bibtex key you will remember.

The bad

It doesn't auto-catalog, manage, or rename pdf files.
If you use several bibtex files, it is not obvious to move references from one to the other, except by export/import.
It doesn't auto-create the bibtex keys.
It doesn't ocr for references.

Workflow

I use Zotero and JabRef. Zotero manages my literature in the same way iTunes manages my music collection. It is useful though, to make/export a small bibtex file when you finished a paper. It's faster and it secures your references. Also, sometimes Zotero skrews up the references (say, names with multiple uppercase characters), and you can solve this in JabRef.

A few ways to make the most use of Zotero:

Make a dump folder for new documents. I do this by quarter.
Use three kinds of tags:

Some generic terms: TO DO, CLASSIC, STARS
The paper's keywords or theme
Some nickname, or the project or institue the paper comes from

Use the notes, but do not overinvest in this, because it is too software specific and you'll lose notes and folders one day for sure. I generally give up why I downloaded a paper or who sent it to me.
Do not catalog other things than literature. It could replace explorer, but you'll waste your time.
Make a folder for each project, with two subfolders: a) literature, and b) references. In references, you keep what you reference to in the paper.
If you write several papers, make several references folders.
Export the references folders to bibtex for survival. Polish with JabRef, and edit the bibtex files when you later pick up the work on the paper. By then, your library will have changed and will mess up your paper.
Example of the latter: Zotero auto-assigns bibtex keys, say AuthorYearA/B/C. If more articles are imported, those will change and you'll be miserable.

Some non-workflow related hints:

Use a cheap WebDAV server to sync. It works well, won't mess up your database like dropbox would.
Go through the pain of setting up Firefox if you're on mac.
Solve the Bibtex export problems.
Spent your free time tidying up your database. It's your comparative advantage.

Online sources

Wikipedia [-] http://en.wikipedia.org/wiki/Comparison_of_reference_management_software
Zotero [-] http://forums.zotero.org/discussion/6174/mendeley/
Zotero [-] http://forums.zotero.org/discussion/6527/
Mendeley [-] http://www.mendeley.com/blog/tag/zotero/
Blog [2011-02-02] http://nakhmani.wordpress.com/2011/02/02/mendeley-vs-zotero-comparison/ (about the notes editor)
Blog [2012-02-12] http://onid.chrislott.org/2012/in-brief-mendeley-vs-zotero-for-citation-management/ (about pricing)
Blog [-] http://jodischneider.com/blog/2009/08/27/organizing-a-pdf-library-mendeley-for-information-extraction-zotero-for-open-source-goodness/ (fouten bij 'retrieve metadata' in beide programma's)+
Blog [-] http://earlycj5.wordpress.com/2009/03/20/zotero-vs-mendeley-initial-thoughts/
Blog [-] http://dave.langers.nl/index.php?/archives/408-Zotero-vs.-Mendeley.html
http://groups.google.com/group/latexusersgroup/browse_thread/thread/ecef859dd30e306c?pli=1 (metadata toevoegen in LaTeX)
http://www.tumblr.com/tagged/zotero+mendeley
http://alternativeto.net/software/mendeley/comments
http://ubuntuforums.org/archive/index.php/t-1067681.html
http://infopolitics.net/2010/07/things-i-want-in-an-academic-writing-workflow/
http://hlwiki.slais.ubc.ca/index.php/Zotero_vs._Mendeley
http://www.slideshare.net/giustinid/ref-works-mendeley-zotero

JobAt Loonwijzer

http://content.jobat.be/nl/loonwijzer-starterslonen/

Deze keer niet op basis van een enquête, maar via experts. Een leuke tool, wetenschappelijke waarde is wellicht eerder beperkt.

woensdag 13 oktober 2010

LaTeX

Update 20-06-2013

Probleem

Na heel wat uren turen onder de Office-motorkap blijven veel problemen onopgelost. Vooral Word werkt soms tegen:

Nummering van hoofdstukken en secties
Insluiten van vectorafbeeldingen
Dimensies van tabellen
Cross references naar tabellen en grafieken
Inhoudstabellen
Paginanummering, first pages en secties
Paginadimensies, illustraties
Compatibiliteit illustraties in Excel, Powerpoint en Word
...

Met andere woorden, het is een boeltje. Ondertussen hoor je dat er een markuptaal bestaat die al die zaken onder controle houdt, LaTeX. Ik experimenteer daar ondertussen al even mee.

Het systeem

Zoals veel dingen uit de alternatieve wereld van computernerds zijn de interfaces van de programma's onoverzichtelijk en is de installatie al meteen problematisch. In essentie heb je twee programma's nodig.

Eén: een 'parser', een programma dat de code omzet in - laten we zeggen - een pdf'je. Dat kan MikTeX zijn of TexLive. Het komt allemaal op hetzelfde neer. Je moet wel de toepassing tex.exe weten te localiseren (onder Windows). Ik heb TexLive geïnstalleerd om alternatief te doen.

Twee: een frontend of editor. Dat kan bij wijze van spreken kladblok zijn, maar het is interessanter om een programma te gebruiken waar bijvoorbeeld knoppen met shortcuts voor bepaalde commando's reeds in aanwezig zijn en waar je met een muisklik het document kunt naar de parser sturen. Ik gebruik hiervoor TexMaker. Meer populair is TexnicCenter, en voor sommige mensen de tussenslag LyX, die reeds een indruk geeft van je output. Ter vergelijking: in Word zie je quasi exact de uiteindelijke output.

Mijn ervaring:

LyX: nutteloos, je kan de LaTeX code niet wijzigen (!)
TechnicCenter: oeverloos, er komt geen einde aan de foutmeldingen, zelfs voor een goede file
TexMaker: heel erg goed, overschrijft je pdf's en je opent ze met de interne viewer in no time

Je kan ook alles online laten geschieden. Een briljant idee, maar het werkt nog niet zo goed. Zie:

Voordelen

Het ziet er goed uit - je hebt standaard een heel wetenschappelijke stijl, en met XeTeX wordt het zelfs artistiek.
Systematiek is heilzaam.

Nadelen

Eerste grote nadeel: samenwerken. Iets als track changes bestaat wel, maar ik durf mij er eerlijk gezegd niet aan wagen, laat staan om iemand anders te dwingen LaTeX te begrijpen.

Tweede nadeel: cite while you write blijft een beetje klungelig, want je moet in de .bibtex-file keys bepalen voor de referenties. Vanuit Zotero wordt dit automatisch gedaan, maar afhankelijk van de gebruikte plugin krijg je andere keys. Die zijn te manipuleren in JabRef, maar dit kan in feite enkel op het laatste moment wanneer je een definitieve, en paper specifieke referentielijst hebt, zoniet wordt je werk toch telkens overschreven.

Derde gigantische nadeel: tabellen. Probeer in HTML een tabel te maken: dat gaat niet. In LaTeX is het net zo. Je doet er dan ook best aan om te werken via Excel en een plug-in. Dat voorspelt wel problemen, uiteraard. Enkele links:

Voor het gebruik van booktabs moet je in de 'preamble' of 'head' de volgende lijn toevoegen:

\usepackage{booktabs}

Vierde nadeel: als er een fout in de code zit, krijg je geen output. Begin dan maar te debuggen.

Nog kritiek:

http://www.9lives.be/forum/natuur-wetenschap-technologie/690835-latex-3.html

Links

http://www.math.duke.edu/computing/tex/templates.html
http://happymutant.com/latex/ - a quick and dirty guide to LaTeX
http://people.cs.kuleuven.be/~dirk.nuyens/thesislayout/ - een thesis maken in LaTeX (waarschuwt voor a4wide en raadt geometry aan)
http://latex.ugent.be/ - fantastische latex site van de Ugent
http://www.andy-roberts.net/misc/ - man met cursussen
http://www.andy-roberts.net/misc/latex/latexvsword.html - zinloze bijdrage
http://happymutant.com/latex/index.html#fonts - A Quick & Dirty Draft Course

woensdag 15 september 2010

Proven Models

http://www.provenmodels.com

Maslow? Porter? Schumpeter?

Mintzberg?
Mintzberg?
Mintzberg?

Het geweldige Proven Models vat de belangrijkste HRM-modellen samen. Een handige kapstok voor onmiddellijk gebruik of verder onderzoekwerk.

maandag 13 september 2010

Graph schemes

Voor het project gaan we een scheme aanmaken, gebaseerd op s2color. De waarden die moeten veranderen zijn:

- Achtergrond: wit
- Kleurcyclus: blauwschema als volgt,

RGB colour scheme
red green blue
Farbe 1 28 95 117
Farbe 2 81 143 163
Farbe 3 123 181 199
Farbe 4 178 217 229
Farbe 5 217 238 244

http://www.stata.com/help.cgi?scheme+files
http://www.ats.ucla.edu/stat/stata/faq/showmark.htm

vrijdag 27 augustus 2010

Productcyclus van een theorie

creëren
corrigeren
repliceren
interpreteren
adviseren
executeren

donderdag 26 augustus 2010

Macro's in Stata

Ik heb nog steeds geen idee wat het verschil is tussen global en local macro's in de praktijk. Mocht ik tijd hebben, dan vind ik het wellicht hier:

http://data.princeton.edu/stata/programming.aspx

dinsdag 24 augustus 2010

Grafieken

Scatterplot with a regression line
http://www.ats.ucla.edu/stat/stata/faq/scatter.htm

Regression line with data fit
http://www.ssc.wisc.edu/sscc/pubs/4-25.htm

SPSS

I am a long time user of SPSS. For many years, it was all I knew, and I managed to write fairly complex macros in SPSS 16. Then I needed to make a lot of very similar graphs, looping over groups, and it just didn't do the job. That's when I switched to Stata and never looked back.

Because of collaboration and to convert very large datasets to SAS and Stata, I may use it every now and then. We have SPSS 20 and it is a little improved, having syntax highlighting and a more stable feel. The looks on the other hand are just childish and the language remains cumbersome.

The SPSS code manual is not very well organized. For help, you'd want to go to the UCLA website or to the SPSS forum. I do not post there anymore though.

vrijdag 20 augustus 2010

Inverted Mill's ratio / Heckmann's Lambda

Een kort berichtje om te zeggen dat:

De twee benamingen op dezelfde techniek slaan
De techniek bedoelt is om coëfficiënten te controleren voor een ontbrekende populatie

Voorbeeld
Loonevolutie van vrouwen steiler dan verwacht, niet omdat die zo steil is, maar omdat er uitval is along the way.

dinsdag 17 augustus 2010

Dummy's in Stata

zoals gewoonlijk, heel eenvoudig:

tab variable, generate(dummyvariableroot)

als je deze wil gebruiken in een analyse kan je de korte vorm toepassen door een asterisk achter de root te plaatsen:

regression depvar dummyvariableroot*

In een regressie zal er waarschijnlijk automatisch één dummy verdwijnen, maar als je zelf wilt kiezen welke dummy dan moet je het het manueel doen.

http://www.stata.com/support/faqs/data/dummy.html

donderdag 29 juli 2010

Kaartjes maken met Stata

Alles staat hier mooi uitgelegd:
http://www.stata.com/support/faqs/graphics/spmap.html

In feite volg je 5 stappen:

Download een kaart (hier of hier)
Maak een convergentietabel tussen de clusters (landen, regio's, gemeentes) op de kaart en de codering in de data
Maak een dataset met de te plotten statistieken (cijfers per land)
Pas de codering van de kaart via de convergentietabel to op de data
Run spmap

Het grootste probleem zijn de kaarten. Op dit moment heb ik wel een stuk of wat eilanden op de Atlantische rig (de Azoren), maar Cyprus ontbreekt volledig ...

International Education Statistics

Friedrich Huebler, met een site zoals deze, alleen beter en over onderwijs.

Schitterende Stata grafieken & kaarten

http://huebler.blogspot.com/

WEKA

I don't know what it is, but it's free:

http://www.cs.waikato.ac.nz/~ml/weka/index.html
http://weka.wikispaces.com/
http://weka.sourceforge.net/explorer_screenshots/PreprocessPanel.png

What stats package to use?

Introduction

Boys like their toys, and this is not different with statistical packages. It's a perpetual and heated debate and when you've landed at some point and think your workflow is good, technology passes you and sets you back.

Here's an old discussion that I first consulted, but below I make my own considerations. In short: I'd use Python for big data, Stata for analysis, and R if I have to (e.g. for some graphs). Everything else I would ditch.

Stata

Stata is my program of choice. It is quite expensive, but mind you that for a couple of hundred euros, depending on the flavour, you'll not only get an easy and robust statistical software package, but also fast support, a good community, useful user commands, and a great documentation source. Fun fact: all documentation is read by the wife of the founder, who's not a statistician but perhaps even smarter. If she doesn't understand what the statisticians are saying, it goes back to the drawing board.

The bad things: forget about ever copy-pasting anything. You'll also need to have a lot of memory on your computer, as Stata loads the whole file and just one at a time (although you can 'preserve' a file temporarily to work on something else in between).

Python

Python is the next language I will learn. I have used chunks without understanding what I was doing, but I like the sound of the language, and it's the logical step-up after Stata, it seems. Many people are using it and so will I.

R

I don't like R. There is a thorough discussion here, circling around leaving Stata for R, but ending up in concluding what I conclude about: R is a mixture of a coding language like Python and a statistical language like Stata, but because it is open source the support is unsure, the community tends to be geeky and unfriendly, the documentation is poor, and the language consistency - even if the structure is good because it is a programming language - is bad. Some commands have their own inner programming language and that is plain bad.

The good things: it is free and R Studio is a great user interface. It has good graphic capabilities, and

Mplus

I don't know Mplus. Colleagues use it when there are issues with missing values, and the programmers are said to be the best statisticians in the world. So it must be good, but I don't use it.

SAS

This is old software. It is too complicated, and while it can do a lot through obscure options, it is not flexible enough to do what you want.

SPSS

This is bad software. It is a scandal that some universities still teach this.

Some R resources

Apparently the single best manual for R: https://r4ds.had.co.nz.

http://www.burns-stat.com/ - een man met een missie
http://www.burns-stat.com/pages/Present/Excel_to_R_annotated.pdf - bewijst eigenlijk dat R graphics niet deugen
http://www.burns-stat.com/pages/Tutor/R_relative_statpack.pdf
http://www.burns-stat.com/pages/Tutor/spreadsheet_addiction.html

woensdag 28 juli 2010

Grapje

You have to love Stata manuals:

"Although some have said that there are as many cluster-analysis methods as there are people
performing cluster analysis. This is a gross understatement! There exist infinitely more ways to
perform a cluster analysis than people who perform them."

donderdag 15 juli 2010

Data Visuals

Een wetenschapper heeft twee taken:

Verklaringen vinden
Verklaringen tonen

Dat tweede punt kan op allerlei manieren gebeuren. Ten aanzien van collega's liefst zo exact mogelijk. Dat leidt tot tabellen, modellen en tekst. Maar er zijn nog andere mensen: beleidsmakers, consumenten, het middenveld, ... Zij vertrouwen een wetenschapper op zijn woord, maar geloven hem of haar pas echt als er een plaatje bij komt dat ze begrijpen. Zie daar de bestaansreden voor Data Visuals: grafieken die de vinger op de wonde leggen.

Omdat ik nu liever in mijn bed zou kruipen geef ik gewoon de links. Zoals gebruikelijk is er weer te veel informatie, daar kunnen andere informatiedesigners zich later over buigen. Enkele lessen:

Edward Tufte is een referentie in het domein
Pie charts deugen zelden, 3D pie charts nooit

De links dus:

http://lifehacker.com/5485624/look-at-data-like-a-statistician-minus-the-ph-d
http://flowingdata.com/2010/02/17/road-to-recovery-is-the-recovery-act-working/
http://img390.yfrog.com/img390/8971/he1.png - Bush vs Obama graph
http://data.bls.gov/PDQ/servlet/SurveyOutputServlet
http://flowingdata.com/2010/03/04/think-like-a-statistician-without-the-math/
http://www.concurringopinions.com/archives/2007/02/pie_charts_the_1.html
http://www.edwardtufte.com/bboard/q-and-a?topic_id=1
http://www.edwardtufte.com/bboard/q-and-a-fetch-msg?msg_id=00018S&topic_id=1
http://www.information-management.com/issues/20050101/1016296-1.html?pg=2

Stats site Belgian Presidency

http://eu2010.statbel.fgov.be/indexue_en.htm

Looks rather useless to me

woensdag 14 juli 2010

Graph output in Stata

Ik vind de Stata grafieken de beste die er zijn, maar je mag het zelf niet verknoeien. Enkele regels:

Gebruik vector output

D.w.z. schaalbare formaten zoals .epd, .emf (windows) of .pdf (mac). Je ziet helaas meteen het probleem: je kan niet beide door elkaar gebruiken. Bovendien is de .pdf output slecht, waardoor je met een convertor .epd-.pdf moet werken. Omslachtig. Er zijn twee dingen beter aan windows: .emf en office 2007 ... Helaas. En .epd is maar een raar formaat, iets voor grafici waar de rest van de wereld beter van af blijft.

Gebruik de juiste resolutie

En dan hier de caveat: dit is niet de maximale resolutie. JPEG's en PNG's zijn namelijk gemaakt om op ware grootte te tonen. Verkleinen van een gecomprimeerd beeld is dus dubbel zinloos. Voor documenten is een resolutie (horizontaal) van 400 ideaal, voor slides gebruik ik 1280 (worden full screen getoond of geprojecteerd). Het schijnt dat ook de resolutie van de printer de afbeeldingsresolutie bepaalt. Samengevat: produceer output met de resolutie van het medium dat die output zal tonen.

Syntax

graph export permmeansd1280.png, width(1280) replace
graph export permmeansd1960.png, width(1960) replace
graph export permmeansd800.png, width(800) replace
graph export permmeansd400.png, width(400) replace
graph export permmeansd640.png, width(640) replace
graph export permmeansd320.png, width(320) replace
graph export permmeansd.emf, replace

woensdag 7 juli 2010

This command in STATA

Niet alleen interessant voor switchers, maar ook leuk om trucs te weten te komen:

SPSS > STATA
http://www.ats.ucla.edu/stat/stata/faq/spss_command_to_stata.htm

SAS > STATA
http://faculty.fuqua.duke.edu/home/blanc004/data_programming/sas_to_stata/sas_to_stata.html

vrijdag 25 juni 2010

Germán Rodríguez, Office of Population Research, Princeton University

http://data.princeton.edu/stata/

Een geweldige site, met informatie over General Linear Models, Mixed Models, Stata en R.

woensdag 23 juni 2010

Multilevel analyse

Er is al veel te veel over multilevel analyse geschreven, vandaar een selectie van termen die voor mij nuttig zijn/waren:

Fixed vs random effects

Fixed effects: interindividuele effecten
Random effects: individuele effecten

Random effecten laten toe dat een bepaalde parameter voor elke eenheid verschilt, waardoor de overige parameters "onafhankelijk" van deze parameter geschat worden.

Voor intercepts is dit heel nuttig: een relatie kan voor elke L2 case gelijk zijn, maar om tal van andere redenen kan het intercept variëren. Een random effect intercept only model toont a.d.h.v. de variantie rond dit intercept (variance components), hoeveel variantie op level 2 bestaat, en dus door variabelen op dat niveau moet worden wegverklaard.

Andere parameters (slopes) kunnen ook op random gezet worden om na te gaan of er nood is aan het inbrengen van verklarende variabelen op level 2 die interageren met slope.

Bij wijze van voorbeeld deze grafiek met data voor acht fictieve landen op een fictieve Y-variabele tussen het jaar 2 en het jaar 12. De groeivoet van Y is zo geconstrueerd dat deze steeds 3% is.

Het belang zit 'm in het verschil tussen de oranje en de rode fitted line. De rode lijn volgt exact de helling van elk land. In dit geval is het gemiddelde van de trends gelijk aan de gemiddelde trend. De oranje trendlijn is gebaseerd op een steekproef uit alle punten (in het groen gemarkeerd): elk land behoudt dezelfde trend, maar hier en daar vallen er cases weg. Door het intercept te randomiseren, zou je ook deze lijn correct inschatten.

Intraclass correlatie

Betekenis: het deel van de variantie dat door groepsverschillen wordt verklaard.

Rho = sigma2(u)/som(sigma2u,sigma2res)

De sigma's worden geschat met een intercept only model (xtreg, xtmixed, anova, ... ). Vergeet niet de sigma's te kwadrateren. Voor Bernouilli-schattingen wordt een andere schatter gebruikt

wiki: http://en.wikipedia.org/wiki/Intraclass_correlation

Three level vs cross classification

Wanneer een case tot twee niet geneste groepen behoort (vb. land en sector of vakbond en voetbalclub), spreekt men van cross classification op het tweede niveau. Termen als non hierarchical of non nested worden hier ook voor gebruikt.

Er is een kleine omweg voor de case sector en land. Als je verondersteld dat sector een landspecifiek effect heeft, dan kan je de sectoren hernoemen zodat bouw-land A verschilt van bouw-land B. Wat je dan niet onderzoekt is de algemene impact van de bouwsector, maar wel de sectorale impact binnen een land versus de internationale verschillen op level 3.

Interessant, hé.

Links

http://faculty.chass.ncsu.edu/garson/PA765/multilevel.htm - multilevel analyse met SPSS, veel aandacht voor covariantiestructuur

dinsdag 15 juni 2010

Estout

Stata is rampzalig om gebruiksklare output te leveren. Wie toch wil sukkelen, of bij gebrek aan beter, kan de Estout add on installeren:

findit estout

Je moet een stuk naar beneden om de installatiefile met een rare code te vinden.

Maar dan loopt het wel lekker, informatie bij de vleet:

esttab

de collectie est-ado's is uitgebreid, maar in de praktijk zijn we eigenlijk niet geïnteresseerd om Stata te gebruiken voor de opmaak van tabellen. Het is immers een ergerlijk programma op dat vlak: nu eens gaat het niet, dan weer wel ... Wat je eigenlijk wil zijn de meest simpele, onopgemaakte tabellen waar men bij de redactie nog alles mee kan aanvangen. Daarom gebruik ik:

esttab, plain wide

dankzij plain zien we geen irritante kadertjes, en dankzij wide staan de t-waarden nààst i.p.v. onder de bèta's. Waar de vrijheidsgraden of p-waarden gebleven zijn, weet ik niet, jammer genoeg. Doorgaans is t ~ z door een hoge n, en heb je die vrijheidsgraden niet nodig om de significantie te benaderen, maar we zitter er natuurlijk altijd liever klop op.

Voorbeeld

eststo clear
sysuse auto
eststo: quietly regress price weight mpg
eststo: quietly regress price weight mpg foreign
esttab, plain wide

... simpel (let op quietly)

Nog een nieuwtje: Stata 11.1 heeft nu ook estimation formatting. Mooi zo!

Links
http://gettinggeneticsdone.blogspot.com/2009/06/make-pretty-regression-tables-in-stata.html

Carolina Population Center

Stata heeft de beste documentatie, maar niettemin moet die de volledigheid laten voorgaan op een user-centered approach. Surf daarom naar:

http://www.cpc.unc.edu/research/tools/data_analysis/statatutorial

... een héél didactische collectie tips voor Stata.

Ik apprecieer:

Stata weights

Opnieuw iets bijgeleerd over Stata waar de gemiddelde SPSS-gebruiker niet van wakker lag: gewichten. Ik had het er al eerder over (hier). Nu blijkt dat je tóch een robuuste schatting van de standaardfouten kunt bekomen.

Even overlopen:

pweight : doorgaans de beste keuze voor samples die herwogen zijn. Een grote waarde betekent ondervertegenwoordiging en dus een onnauwkeurige schatting. De case zal een groter belang krijgen in het berekenen van de gezochte parameters, maar de fout zal vergroten. (vb. project wage gap, decompositie)
aweight : wanneer waarden voor een case gemiddeldes zijn: een groot gewicht betekent een meer nauwkeurige schatting. De case zal enerzijds een groter belang kijgen, en daarnaast zal de fout kleiner worden. (vb. project loonvorming)
fweight : te gebruiken wanneer de case in feite meermaals voorkomt, maar de frequencies gecollapsed zijn (vb. datalevering Eurostat voor project Walqing)
iweight : don't bother

Interessant, is het niet?

Links

Threefold decomposition

Ik heb niet erg veel tijd, dus bij wijze van nota:

De decompositiemethode, met als z'n goede en kwade kanten, heeft een aantal nevenvormen. Gewoonlijk, en liefst, gebruik ik de twofold- of omegamethode. Hier bepaal je de referentiegroep voor de coëfficiënten, eventueel via gewichten.

Een andere methode is threefold, waarbij dezelfde groep de geïsoleerde bèta en gemiddelde waarde heeft. Dit heeft het voordeel dat het gemakkelijker te plotten is (zie presentatie). Het nadeel is dat er een restterm is die men CE of CxE noemt, en die interacties aangeeft. Helaas paashaas, die term is nauwelijks op een zinvolle manier te interpreteren.

Decompositie met Stata

Indertijd heb ik een macro geschreven voor SPSS, waarmee de Cotton, Reimers, Neumark & de twee Oaxaca-Blinder decomposities kunnen berekend en gebootstrapt worden. Achteraf bekeken zot werk.

Het probleem met die macro is dat je zijn regels moet volgen, en dat vraagt veel aanpassingen aan de dataset en input voor de macro. In Stata bestaan twee gelijkaardige commando's die deze klus in één lijn klaren. Het enige nadeel is dat ze elk unieke eigenschappen hebben die we helaas niet kunnen samennemen.

De commando's zijn oaxaca en nldecompose. Laat je niet afschrikken door die laatste: nl staat voor niet lineair, maar eigenlijk is het gewoon een uitbreiding van (bijna) alle regressies die Stata heeft, waaronder ook de normale regress.

Wat zijn de voor- en nadelen:

oaxaca is erg to the point, maar lineair. Het voordeel is dat je het detail van een decompositie kunt opvragen (verklaring per (set van) verklarende variabelen), het nadeel is dat je de Cotton en Reimers specificatie niet kunt aannemen. Er is enkel: threefold, Neumark, Oaxaca 1 & 2.
nldecompose is zoals gezegd multifunctioneel, maar heeft het nadeel dat je het detail niet kan opvragen.

Voor iemand zoals ik, die dus graag het detail van de Cotton specificatie te zien zou krijgen, is er geen oplossing. Jammer.

vrijdag 4 juni 2010

Software kiezen

Er is altijd veel heisa rond het gebruik van statistische programma's. Ik ben geen expert in die materie, maar heb met enkele pakketten ervaring en dit is mijn indruk:

Voordelen

is bedoeld voor serieuze mensen, maken geen software om een jaar later weer te updaten
kan goed overweg met grote datasets: mijn indruk: het is het enige programma dat dit kan
wordt gebruikt in de privésector

Nadelen

moeilijke taal
duur
stug in het gebruik (vb. vervelend om telkens alle DATA commando's in te geven)

Persoonlijk

ik gebruikte het niet veel en heb de licentie niet vernieuwd

SPSS

Voordelen

ziet er simpel uit
toch bijna alle statistische mogelijkhede
ik vind OMS een handige functie
Python

Nadelen

crasht
géén user-base
slechte troubleshooting
bijna zoveel updates als windows
duur, laat zich verkopen in verschillende pakketten, maar je weet eigenlijk nooit of en wanneer je die nodig zal hebben

Persoonlijk

ik ken het redelijk goed en gebruik het heel vaak
voor het construeren van variabelen is het erg gemakkelijk
voor het werken met grote datasets: het is mogelijk

STATA

Voordelen

de code is erg esthetisch
het programma is solide
de documentatie is uitmuntend
de user base actief
de mogelijkheden uitgebreid
goedkoop, open source
grafische aspecten zijn logisch
werkt op alle OS

Nadelen

werkt met slechts één dataset
ingewikkelder dan SPSS
output in excel krijgen blijft een groot probleem, alle plugins ten spijt
kan niét overweg met gigantische datasets (>RAM), kan afhankelijk van het OS wel of niet overweg met grote datasets

Persoonlijk

ik geeft het een kans

GRETL

Voordelen

gratis, open source, R based
goed voor longitudinaal onderzoek en kwantielregressie

Nadelen

beperkte mogelijkheden
crashes
povere output

Persoonlijk

ik gebruik nu eerder STATA

Voordelen

gratis, open source
compleet

Nadelen

ingewikkeld

Persoonlijk

nooit iets van begrepen

Voordelen

gebruiksvriendelijk
gespecialiseerd

Nadelen

niets

Persoonlijk

lang geleden
enkel nodig voor ML binary logistic

Links

woensdag 2 juni 2010

Gewogen data

Context
Je hebt je data gewogen, omwille van een overselectie van bepaalde kleine groepen of omwille van een onderselectie door een slecht design. Kan gebeuren.

Vraag
Wat voor analyses kan ik nog uitvoeren? Zal de weging mijn standaardfouten beïnvloeden? Zijn de coëfficiënten juist als ik niet weeg?

Antwoord
Ik heb mij slechts over twee methodes gebogen: regressies en chi²-toetsen. Mijn conclusie is dat wanneer een analyse zich op variantie baseert, wegen niet aanbevolen is. In het andere geval (chi²) wél. Even nuanceren:

Bij regressie hoef je niet te wegen: het gaat om het effect van één variabele op een andere. Weging zou eventueel outliers nadrukkelijker het effect laten bepalen, en dat kan gewenst zijn: er was immers een onderschatting van een bepaalde groep. Neem je echter de variabelen waarop de weging gebaseerd is in je model op als interactieterm, dan heb je net hetzelfde resultaat, een correcter model én juiste standaardfouten. Met andere woorden: wegen is over het algemeen af te raden.

Nadelen: misschien begrijp je niet veel meer van je coëfficiënten door alle interacties en het intercept only model geeft geen populatiegemiddelde (in het volledige model is het intercept een gecontrolleerd gemiddelde).

Chi² is een ander geval: het gaat hier om een eenvoudigere statistiek. Je vergelijkt verwachte en geobserveerde celpercentages. Die celpercentages zullen preciezer zijn bij een gestratificeerde steekproef. Maar dan moet je wegen, anders kloppen de percentages gewoonweg niet. Voor het aantal vrijheidsgraden gebruik je de ongewogen n (of de gewogen n als het gewicht een gemiddelde heeft van 1), of het aantal categorieën als de test dit vereist.

Wat t-testen betreft denk ik dat het onmogelijk is een correctie test uit te voeren: een t-test is niet anders dan een regressie waar niet voor andere variabelen gecontroleerd wordt. Dat is precies de voorwaarde om ongewogen data te mogen gebruiken. Je zou dus moeten wegen, maar dan verandert de variantie, die precies het betrouwbaarheidsinterval bepaalt. Stata heeft hiervoor speciale weegtechnieken.

Links
http://www.sociology.ohio-state.edu/ptv/faq/weights.htm
http://www.dcs.napier.ac.uk/peas/errors.htm

maandag 17 mei 2010

Gemiddeldes over landen heen

Waar ik voortdurend mee sukkel is met het berekenen van gemiddeldes over landen heen. Daarom deze twee regels:

Het gemiddelde van de sommen = de som van de gemiddelden
Het gemiddelde van de ratios < > de ratio van de gemiddelden

Dat tweede is verwarrend, omdat het in veel gevallen wél opgaat. Met randomgetallen is het echter meteen duidelijk.

woensdag 5 mei 2010

Gretl

http://gretl.sourceforge.net/

GRETL is een open source programma voor regressies, tijdsreeksanalyse en andere econometrische statistiek. Ik heb het gebruikt voor kwantielregressie. Best een knap programma, maar in de vorige versie zaten toch nog wat haperingen.

donderdag 22 april 2010

Werkbaarheidsmonitor SERV

www.serv.be/werkbaarwerk
Zeer aangename lectuur, eenvoudige tabellen met een analyse van de kwaliteit van arbeid voor geselecteerde profielen, opgesteld door de SERV. Knap werk!

dinsdag 16 februari 2010

De Guy-Goos these

We vinden een effect van opleidingsniveau op de loondrift in interactie met de conjunctuur. dat negatief is in hoogconjunctuur en positief onder laagconjunctuur.

Volgens Guy moet de verklaring niet bij de hooggeschoolden gezocht worden. Die boeren altijd goed, en dit effect zou niet verschillen naargelang de conjunctuur. De verklaring zit bij de laaggeschoolden. In een hoogconjunctuur komen de bonden sneller tot een goed akkoord, met extra premies e.d. In dat geval is er bovenop het salaris een extra looncomponent die uitgebreid is voor laaggeschoolden, terwijl voor hooggeschoolden weinig verandert. Een stijging van het opleidingsniveau betekent dan een daling van het aantal laaggeschoolden en het wegnemen van een drijfkracht achter de loondrift.

Misschien ...

vrijdag 5 februari 2010

Backward sloping supply curve

Op een bepaald niveau zal een hoger loon de tewerkstelling verkleinen, namelijk wanneer het substitutie-effect kleiner is dan het inkomenseffect. We zien dit aan de supply-curve (als het arbeidsaanbod al niet geheel inelastisch is).

Substitutie-effect: vrije tijd wordt ingeruild voor arbeid, omdat dit het nodige geld opbrengt.

Inkomenseffect: het inkomen is hoog genoeg om met minder arbeid het gewenste nut te bereiken, men zal minder werken bij een loonsverhoging van zodra dit nutsniveau bereikt is

dinsdag 26 januari 2010

Het Marshallcriterium en lineaire functies

Beste vrienden van de eenvoudige mathematica,

Vandaag leg ik u uit hoe je op het zicht een puntelasticiteit kunt vaststellen. De afleiding bespaar ik u, daarvoor zoek je wat achtergrond bij het Marshallcriterium. Het is niet moeilijk en ook niet belangrijk.

De elasticiteit van een functie valt grafisch af te lezen op de raaklijn aan die functie als de verhouding tussen de afstand tot de Y-as en tot de X-as. Of je dus met een lineaire, concave of convexe functie te maken hebt doet er niet toe. Of de functie daalt of stijgt is echter wel van belang. De nuttigste eigenschap is echter dat deze raaklijn als een rotatie van de Y-as kan gezien worden waarbij de verhoudingen bewaard blijven. Met andere woorden: door een projectie van het punt op de Y-as wordt deze in twee delen verdeeld, waarvan de verhouding je de puntelasticiteit geeft.

Er moeten dus twee punten op de Y-as geplaatst worden

A. snijpunt met de Y-as
B. projectie van het punt op de Y-as, evenwijdig met de X-as

Deze kunnen op twee verschillende manieren ten opzichte van elkaar gesitueerd zijn

Bij een dalende functie in het eerste kwadrant is A >B
Bij een stijgende functie in het eerste kwadrant is B > A

Hieronder een grafiek die dit een beetje illustreert. De punten A en B komen niet voor omdat deze, zoals gezegd, verschillen tussen de dalende functie (blauw) en de stijgende (groen). De blauwe stippellijn toont aan dat de loodlijn H op de Y-as, elke lijn uit het maximum op de Y-as in tweeën deelt.

woensdag 20 januari 2010

Geboorte van een beroep

Bij de creatie van nieuwe jobs vindt er op organisationeel niveau een vertaling plaats van de macrofactoren die de beroepenstructuur wijzigen.

Vb. macro: ontwikkeling internet door Amerikaanse defensie

organisatie (klassieke waardenketen)

R&D: evoluties zoals open sourcing van codes (vooral R&D binnen IT sector), samenwerken met onbekenden, incorporatie nieuwe technologie (vb. IP-telefonie, domotica)
IT: breidt uit, maar ook: concentratie/specialisatie in IT sector
administratie: versnelt, wordt efficiënter en slanker
core production: telewerk, mits aanpassing takenpakket
marketing: websites vormen een deel van de marketingmix, eerst als taak, dan als specialisatie, dan als nieuw beroep en ten slotte als een (sub)sector
customer service: klanten worden zelf ingeschakeld (FAQ, ...), maintenance wordt belangrijker dan service zelf

donderdag 14 januari 2010

Country groupings by institution

This list includes some institutions regularly used for research. The dataset also gives the accession year.

European Union

EU (january 2014)

Austria, Belgium, Bulgaria, Croatia, Cyprus, Czech Republic, Denmark, Estonia, Finland, France, Germany, Greece, Hungary, Ireland, Italy, Latvia, Lithuania, Luxembourg, Malta, Poland, Portugal, Romania, Slovakia, Slovenia, Spain, Sweden, The Netherlads, United Kingdom

EU-15

This is the European Union from 1995 to january 2004 (source). It is considered as the realization of a mature political union.

Belgium, France, Denmark, Germany, Finland, Greece, Ireland, Italy, Luxembourg, The Netherlads, Austria, Portugal, Spain, United Kingdom, Sweden

EU-25

This is the enlargement of the EU in january 2004 with ten new member states, most of which from Central and Eastern Europe (CEE), referred to as NMS-10.

EU-25 = EU-15 + NMS-10

Austria, Belgium, Denmark, Finland, France, Germany, Greece, Ireland, Italy, Luxembourg, Portugal, Spain, Sweden, The Netherlads, United Kingdom, Cyprus, Czech Republic, Estonia, Hungary, Latvia, Lithuania, Malta, Poland, Slovakia, Slovenia

EU-27

The accession of Bulgaria and Romania on 1 january 2007. In this constellation, the Lisbon treaty was signed in 2009.

EU-27 = EU-25 - NMS-10 + NMS-12

Austria, Belgium, Denmark, Finland, France, Germany, Greece, Ireland, Italy, Luxembourg, Portugal, Spain, Sweden, The Netherlads, United Kingdom, Cyprus, Czech Republic, Estonia, Hungary, Latvia, Lithuania, Malta, Poland, Slovakia, Slovenia, Bulgaria, Romania

EU-28

Accession of Croatia 1 july 2013.

EU-27 = EU-25 - NMS-12 + NMS-13

Austria, Belgium, Denmark, Finland, France, Germany, Greece, Ireland, Italy, Luxembourg, Portugal, Spain, Sweden, The Netherlads, United Kingdom, Cyprus, Czech Republic, Estonia, Hungary, Latvia, Lithuania, Malta, Poland, Slovakia, Slovenia, Bulgaria, Romania, Croatia

Other economic unions in Europe

Euro zone

Belgium, France, Germany, Finland, Ireland, Italy, Luxemburg, The Netherlands, Austria, Portugal, Spain, Greece, Slovenia, Cyprus, Malta, Slovakia, Estonia, Latvia

European economic area (EEA)

Iceland, Lichtenstein, Norway

European Free Trade Agreement countries (EFTA)

Iceland, Lichtenstein, Norway, Switzerland

United Nations (UN)

North Atlantic Treaty Organization (NATO)

dinsdag 12 januari 2010

Occupational Outlook Quarterly

http://www.bls.gov/opub/ooq/

Het Occupational Outlook Quarterly (Bureau of Labor Statistics) is een niet-gereviewde periodiek, toegankelijk voor niet-specialisten. De uitgaves zijn thematisch.

Occupational Outlook Handbook

http://www.bls.gov/oco/

Het Occupational Outlook Handbook (Bureau of Labor Statistics) geeft omschrijvingen van beroepen en prospecties omtrent de evolutie van de vraag naar deze beroepen.

New and Emerging Occupations

Olivia Crosby (2002) 'New and Emerging Occupations', Occupational Outlook Quarterly, pp. 17-??

Causes of new occupations

Technology
Demographic trends

aging
immigration
education

Laws
Business trends
Shifts in consumer needs and tastes

Birth of an occupation

As a task added to an already existing occupation
Gaining importance, creating specialties
Combining tasks, becoming an occupation in itself

Examples

Technology

Webmaster: didn't exist before the 1990s, a common occupation by now
Bioinformatics Engineer: depended on the technological advance in computers and the Human Genome Project, developed into a major at universities

Diversity managers in trade unions (Belgium)
Environment auditors, prevention services (Belgium)
Certificating scientists (e.g. fireguarding doors)

Consumer needs

Fence jumpers, hired hackers to test security systems
Plastic surgery doctors

Business practices

HR managers
Quality control in hospitals

Demographics

State aid for asylum seekers
Geriatric psychiatrists

etc.

Loon in SILC 2007

Household data

De hele HY (010 tot 145) reeks vraagt naar het gezins inkomen.

HY010 Total household gross income

HX090 Equivalised disposable income
HX100 Equivalised disposable income Quintiles

Personal data

zie WG project
PY020n

ISCO in SILC 2007

Variabele: PL050
Typologie: ISCO-88 (COM)
Eenheid: werknemer
Detail: 2 digit

Opmerkingen

Verwijst naar de hoofdjob (arbeidsduur), of laatste job
Level 1 wordt samengenomen (11, 12, 13) voor part timers
Aanpassing in functie van SILC in annex (ISCO-88 COM)

Achtergrond

Determinanten van de beroepsindeling:

Aard van de job (taken en verplichtingen)
Vereiste vaardigheden ((opleidings)niveau en specialisatie)
Evt. vestigingsgrootte

NACE in SILC 2007

Variabele: PL110
Type: NACE Rev 1.1
Eenheid: vestiging hoofdjob respondent (volgens arbeidsduur)
Detail: geclusterd sectie-niveau, 12 (13) levels

"a+b" (1 to 5)
"c+d+e" (10 to 41)
"f" (45)
"g" (50 to 52)
"h" (55)
"i" (60 to 64)
"j" (65 to 67)
"k" (70 to 74)
"l" (75)
"m" (80)
"n" (85)
"o+p+q" (90 to 99)
"undef" (0)

Achtergrond
Economic activities are characterised by the input of goods or services, a production process and the output of products.

Vraag

Via gegevens over het bedrijf (naam, adres), te linken aan een bedrijfsregister
Volgens beschrijving van de activiteit van het bedrijf volgens de respondent

maandag 11 januari 2010

Beginnen met Stata II

Een tab delimited bestand openen
insheet bestandsnaam incl pad en extensie

Een dta-file openen
use "bestandsnaam incl pad en extensie"

Alle datasets sluiten
drop _all

Frequentietabel
tabulate variabele

> het nadeel is dat de frequentietabel altijd thousands separators gebruikt, default komma's. Er zijn drie oplossingen voor dit probleem:

Windows eveneens instellen met een comma als thousands separator
Een kruistabel maken met een constante variabele
Omkeren separator & decimaal punt: set dp comma|decimal, permanently

Split file
sort variabele

by variabele: commando

Kruistabel
table rijvar kolomvar

Output format
na het commando en een komma: format(%9.0f), met varianten naargelang de notatie

Tabel exporteren
Stata houdt niet van grote tabellen. Is de tabel breder dan de schermbreedte, dan wordt deze op een volgende lijn verdergezet. Je kan niet veel anders doen dan dit deel mee selecteren en in een programma als excel netjes aan het eerste deel plakken.

Een andere eigenaardigheid is de manier waarop je een tabel selecteert. Je moet als het ware de tekst selecteren. Van zodra je een stuk van een rij hebt geselecteerd, zal bij het kopiëren de hele rij op het klembord worden geplaatst. Je kan een tabel opslaan als tekst, als een tabel, als een html tabel en als een afbeelding. Enkel opslaan als een tabel is zinvol.

SPSS commando's

http://www.ats.ucla.edu/stat/Stata/faq/spss_command_to_stata.htm

België scoort extreem zwak op lissabon doelstellingen

Vacature 8-1-2010
http://www.vacature.com/blog/belgi%C3%AB-scoort-extreem-zwak-op-lissabon-doelstellingen

vrijdag 8 januari 2010

Labour Force Survey

De labour force survey (LFS) is een grootschalige enquête naar de tewerkstelling in Europa. Meer bepaald wil men de werkzaamheid, werkloosheid en inactiviteit in kaart brengen. De gebruikte concepten en definities volgen de ILO-richtlijnen. Eurostat coördineert, de dataverzameling gebeurt door de nationale statistische diensten (sampling, ontwerpen vragenlijst, afnemen interviews).

Landen: EU-27 en 3 EFTA-landen (IJsland, Noorwegen en Zwitserland, dus excl. Liechtenstein)
Periodiciteit: kwartaalbasis
Populatie: 15+
Start: 1983
NACE: 4 digit, rev. 1.1 van 1992 t.e.m. 2008
ISCO: 2 of 3 digit, ISCO-88
Disseminatie: Eurostat website, NuChronos dataset, Eurostat data requests

Kenmerken steekproef

1.7 miljoen cases per kwartaal
0.2 tot 3.3% van de populatie
Referentieweek gerandomiseerd over het kwartaal (sinds 2003)

Voordelen

Nadelen

country coverage
But: incomplete (not all use retrospective questions)
relatively comparable data
But: questions are not necessarily posed in the same way as in EU LFS
Recall problems increase as time goes by which can increase non-response and reduce quality of results
Retrospective questioning will be especially problematic in the case of proxy interviews
Coding practices can change over time
AND, of course…sample sizes

sample size:
approx. to 1,7 mio of individuals (2004, q2).
The sampling rates vary between 0.2% and 3.3% across the countries.

Cell sizes & reliability
Eurostat guidelines:minimum limits for cell sizes of quarterly results
(from 1500 to 21 000, depending on year, country)
Some solutions
Use of yearly averages (average of quarterly results)
Use of 3-year averages
Exclusion of diverging years / countries

Links
Website LFS: http://circa.europa.eu/irc/dsis/employment/info/data/eu_lfs/index.htm
Fiche LFS (EUROSTAT): http://epp.eurostat.ec.europa.eu/cache/ITY_SDDS/en/employ_esms.htm

woensdag 6 januari 2010

Deskilling

Voer voor luddieten: deskilling is het overbodig worden van skills door het vervangen van manuele arbeid door machines, robotten en computers. Ook het opdelen van de productie in afzonderlijke taken, vereenvoudigt de vereiste skills, die maar op één taak betrekking hebben.

Referentie:
Braverman, H. (1974) 'Labor and Monopoly Capital. The degradation of Work in the Twentieth Century', New York & Londen: Monthly Review Press

zondag 3 januari 2010

homothetic function

In economische literatuur noemt men een verhouding homothetisch (homthetic) als ze afhangt van de verhouding van de prijzen. Voorbeeld: stel dat appels 50 cent kosten en bananen 1 euro, dan zal het aantal appels zich verhouden ten opzichte van het aantal bananen zoals hun onderlinge prijzen. Dit voorbeeld is nog eenvoudig: bananen kosten dubbel zoveel, dus zullen er half zoveel gekocht worden. Een budget van 10 EUR wordt bijgevolg verdeeld over 10 appels en 5 bananen. Ik zou ook niet weten waarom.

http://www.encyclo.co.uk/define/Homothetic

A function of two or more arguments is homothetic if all ratios of its first partial derivatives depend only on the ratios of the arguments, not their levels. For competitive consumers or producers optimizing subject to homothetic utility or production functions, this means that ratios of goods demanded depend only on relative prices, not on income or scale.