donderdag 25 november 2010

donderdag 18 november 2010

Error bars en error area

Zoals iedereen weet is Stata fantastisch. Soms moet je het een en ander wel wat forceren, zoals error bars en areas. Drie links:

dinsdag 9 november 2010

Pearson correlatie: interpretatie en statistische intuïtie

Update 30 december 2014

"Hoe moeten we dit nu interpreteren?" - Het is een terechte vraag bij elke parameter die je voorlegt en dus zeker bij de onvermijdelijke Pearson correlatiecoëfficiënt. Deze geeft weer hoe sterk variabelen samenhangen. Het teken toont in welke richting. Zo'n simpele correlatie zal je typisch gebruiken bij een exploratieve analyse. Het is ook een belangrijke bouwsteen van allerhande regressieanalyses, factoranalyses, en SEM-modellen. Een tussenstap tussen eenvoudige correlaties en deze technieken zijn de (semi)partiële correlaties, waar je abstractie maakt van bepaalde andere variabelen die een effect mediëren.

Niemand kan echter precies zeggen hoe je dit cijfer, dat tussen -1 en 1 ligt, moet interpreteren. Het is een uitdrukking van de sterkte van een lineair verband meet. Plot de variabelen op een assenstelsel, en je zou een puntenwolk moeten zien waar zich een rechte lijn in aftekent. Kwadrateer je de correlatie, dan krijg je te zien hoeveel procent van de totale variantie door die rechte lijn wordt gevat. Dat is de technische interpretatie, maar meestal kwadrateren we niet. We hanteren in de plaats een vuistregel die sterk varieert van discipline tot discipline - geneeskundige statistiek, sociometrie, psychometrie of econometrie. In de handboeken zeilt men ook liever om de interpretatie heen. Mijn interpretatie (in sociologie & arbeidseconomie) is dit:
  • r < .10: geen verband
  • r < .30: zwak verband
  • r < .50: matig verband
  • r < .80: sterk verband
  • r > .80: zeer sterk verband

Een experiment

Als alle punten van de puntenwolk exact op een rechte lijn liggen, dan is de correlatie perfect (r = 1). Hoge correlaties krijg je echter ook bij verbanden die helemaal niet zo sterk zijn, dus laat je niet misleiden. Hier een klein experiment dat je in Excel kan doen:

Maak een dataset voor 37 eenheden die elk 10 keer geobserveerd worden (dus 370 observaties in totaal, voor de snelle rekenaar). Eén maat is random veranderlijk over alle observaties, de andere is het gemiddelde per eenheid. We kunnen enige correlatie verwachten, want de twee variabelen zijn niet onafhankelijk, maar voor elke eenheid zijn er ongeveer evenveel cases onder als boven het gemiddelde, wat de correlatie laag zou moeten houden.

Welnu, de Pearson correlatie tussen de veranderlijke en haar gemiddeldes is - met de random getallen die ik verkreeg - 0.9974. Onze statistische intuïtie is duidelijk feilbaar.

Kladblok voor gevorderden

Vroeger was ik fan van Crimson Editor, maar aangezien de ontwikkeling is stopgezet, ging ik verder met Notepad ++.

Voordelen

  • Geen tekstopmaak, dus geen nutteloze markup. Zeer nuttig bij het copy-pasten uit websites.
  • 'Mono(space)' of 'console'-lettertypes voor een vaste letterafstand
  • Syntax highlighting voor statistische programma's (soms moet je een plugin inladen)
  • Verticaal tekst selecteren (kolommen)
  • Gratis

donderdag 21 oktober 2010

LaTeX Tables

updated September 2013

I am not a big believer of LaTeX, but I do use it. One reason to dislike LaTeX is the way you need to make tables. It is very easy to mess up and very hard to debug.

From your stats package to LaTeX

My workflow is the following: make every table with just data in Excel, then convert using excel2latex and paste it in your .tex file. If you happen to have crazy formulas in your table, do the same but use codes in your excel table which you then replace by the formulas in LaTeX.

Do not, as a rule, use tabout-like output that Stata delivers. I prefer a little adjustment of Excel matrix output, which is good nowadays, over the burden to look into the LaTeX puzzle. Face it: when we use tables, it's generally for several models or with a combination of different analyses. So for me -tabout- is worthless.

Adjustments to LaTeX tables

The standard LaTeX-layout, which is good enough, has very large margins. That's nice, but it limits your tables. To cope with that, I've read about two solutions:
  • The tabularx package
  • Put the table inside a minipage and scale it to fit
We're left with just a few more issues: 
  • Landscape pages (fear, anger, hate!)
  • Wrapping lines
  • Wide tables (through -tabularx-)
As for landscapes, I have no clue for the moment. You may want to check here. And pdflscape may be it.
Wrapping lines I've done. It's cumbersome. Basically, you will want to limit the size of a column. You do that through specifying p{3 cm} in your {l l l c r r r c} series of column specifications, where each of l, r, c refers to a column that is left aligned, right aligned or centered. p{} replaces such a specification, so you lose your control over alignment! To solve this issue, you need yet another package: arrays. Then, and I'm not joking, your wrapped left aligned column should be specified as:

>{\raggedright\arraybackslash}p{width}

It is really that stupid. Never saw a > in LaTeX syntax before? Neither did I. As always, there will be some logic behind it, for which a Ph.D. level IQ will suffice, but even if it is understandable, we don't want to waste our time figuring out. 

Links

If you don't want to google, hit some old bookmarks (2010):

woensdag 20 oktober 2010

Word of LaTeX?

Dingen die goed werken, interesseren mij, en men zegt dat LaTeX goed werkt. Effectief, de output ziet er behoorlijk uit. Saai, maar consistent. Die twee dingen gaan samen en zijn voor bepaalde opdrachten gewenst.

Maar wat er bij mij niet ingaat is hoe je een tekst kunt schrijven in LaTeX. De markup code stuurt je in de war en tijdens het typen is de bladspiegel niet om aan te zien. Hou er rekening mee dat veel, zo niet de meeste, teksten vooral gelezen worden vóór ze afgedrukt of gefinaliseerd worden. Dat heet dan een werkdocument.

Eén optie is te starten in Word, en de finale versie in LaTeX te maken indien nodig. In veel gevallen zal dat niet kunnen, omdat er bijvoorbeeld een template opgelegd wordt door een consortium of een opdrachtgever.
  • Type de tekst in Word, tenzij er wiskundige afleidingen in voorkomen, dan ga je meteen aan de slag in LaTeX.
  • Exporteer het bestand (.doc) naar LaTeX (.tex) met Word-to-LaTeX
  • Maak de tabellen altijd in Excel
  • Converteer de tabel naar LaTeX met Excel2latex
  • Voeg de tabellen in en check de cross-references
  • Kuis de opmaak
    • \title{titel hier} in de heading
    • \data{datum hier} in de heading
    • \maketitle als titel
    • \section{} en \subsection{} als titels van de paragrafen
    • \usepackage{verbatim} in de heading en \begin{comment} \end{comment} om tijdelijk syntax weg te laten (vb. uit Word overgenomen marges)
Voordeel: je ziet meteen een behoorlijke tekst en moet alleen kleine wijzigingen doorvoeren in de .tex-file.
Nadeel: met het gratis programma worden formules overgenomen als afbeeldingen. Je kan ze dus niet bewerken. Er zijn enkele betalende alternatieven, zoals GrindEQ, die dit wel kunnen. Ze doen het echter niet noodzakelijk beter voor andere omzettingen.

De tweede optie is meteen een LaTeX document maken.

  • Werken met twee schermen is een must.
  • Voor documenten met veel verwijzingen, grafieken en formules is dit een must.
  • Grafieken kan je in één map plaatsen als pdf's, aangeduid via graphicspath. De kwaliteit van vectorafbeeldingen is niet te evenaren met .jpg/.bmp/.png of zelfs .tiff. Word kan overweg met .emf en .wmf, maar microsoft ontmoedigt deze formaten zelf in de recentere windows versies. Bovendien blijft consistent schalen een probleem in MS Office en is de controle over de bladspiegel onmogelijk. LaTeX daarentegen heeft eigen algoritmes om figuren een plaats te geven, die je desnoods kan overrulen.
  • Je kan de tex-file altijd downgraden naar een ander soort tekstbestand. Er is een optie om te exporten naar html en naar rdf, maar ik heb die nog niet aan de praat gekregen.
  • Het grootste probleem zijn de vreemde tekens, waar LaTeX niet mee overweg kan: een ö wordt in LaTeX \"{o}. Voor ç, û, etc. gelden gelijkaardige problemen. LaTeX verstaat deze karakters echt wél mits het oproepen van inputenc: \usepackage[utf8]{inputenc}. Dat kon gebruiksvriendelijker, natuurlijk.
  • Ik heb geen idee of de bibliografie dan ineens mee geëxporteerd wordt. Laten we het hopen.

Links

dinsdag 19 oktober 2010

Kaartjes maken in Stata

Er bestaat speciale software voor het maken van landkaarten met statistische informatie. Als ik die zou ontwikkelen, zou ik die InfoMaps dopen, dus waarschijnlijk heet het programma zo (edit: het programma heet MapInfo). Maar voor de arme assistent die het met zijn Stataatje moet doen, is er een oplossing:

spmap

Wat je in elk geval nodig hebt zijn Shapefiles. Die kun je dan omzetten naar punten op een assenstelsel, die de grenzen van de landen weergeven. En goede files vind je hier:

donderdag 14 oktober 2010

Reference managers

This post has been updated 9 November 2013: added JabRef

Routine work should be automatized. I remember writing my master thesis using a not so legal copy of Endnot X, which had a terrible memory leak. As a result, I had to restart my computer every hour - which took about 10 minutes! I didn't smoke cigarettes, so what a waste of time... However, the best part of my thesis was probably the bibliography.

Today we get all the fun for free. You may get rid of your boxes of EndNote and Reference Manager. They're too expensive and little innovative. There are two fresh, hip reference managers that rule the scientific world nowadays: Zotero and Mendeley. There is an additional and traditional tool I use with them when doing LaTeX-work: JabRef. I discuss pro's and cons, so you should understand why I choose for Zotero. Both are excellent research tools, but the functionality sticks to managing references. There may be broader tools to manage all of your research, such as One Note or Citavi. I don't know these programs and I am not a big believer.

Zotero

This program meets your needs. It integrates seamlessly with Word 2007 and syncs its catalogue (the references) with your free account at the Zotero server. Data can be synced with the Zotero server or your WebDAV server of choice. I use 4shared.com.

The good

  • Elegantly exports to many formats, including the files in a nice way. As a consequence, you can always return on your steps and use your old reference manager.
  • Neat integration in all major webbrowsers
  • BibTeX can be synced using the AutoZotBib plugin and the Spartan or the RobinTan translator.
  • It is open source

The bad

  • Each file has its folder and folders have nonsensical names, ruling out the use of Explorer
  • Interface is old fashioned, ineffective
  • Automatic indexing is lagging pdf import and unintuitive to turn of
  • Doesn't sync with Mendeley: you should work via RIS files that include the file path.

Mendeley

A proprietary copy of Zotero, that should sync with it, as well as with a BibTex-file, zo it could act as a bridge between those programs. The file manager is neat, quick and accurate. I regret Zotero doesn't sync back, so I could do part of the job in Mendeley. Mendely offers 1000 MB free cloud storage, which is nice. Prices go up after that, but for lightweight users, it may be a good deal.

The good

  • It syncs with Zotero. However, for large sqlite.data files, this becomes cumbersome and slow, as the syncing is continuous.
  • It natively syncs with a BibTex file, which is very good
  • The interface is nice and let's you read pdfs in the left pane, while having the reference column to the left.
  • You can always revert your decision, via RIS files as said before
  • Search results go quite deep into the references and are neatly shown

    The bad

    • The browser integration is limited to a bookmarklet. This means you have to press and see whether you can import straight from the browser. If you do, you only download to your Mendeley account. Importing to your desktop program is a second step. I understand the cloud approach, but soon you'll leave free territory (considering a HD as free storage).
    • A deal breaker: there is no way to sort search results! What if you want a chronological overview by author? What if you want to see what journals were published in? These are common desires!
    • The thing with syncing large libraries.
    • It's proprietary and they've slowed down on updates.

    JabRef

    JabRef is a totally different breed from the first two. It is to Mendeley/Zotero what TexMaker is to Word. You basically get a list with references, screen wide, optionally linked to fixed folder paths.

    The good

    • It's blazing fast to open and quick to search through.
    • Your database is a text-file, there is nothing to slow it down.
    • It's a bibtex file, which all software can read and what you need in LaTex.
    • Put it on Dropbox, google Drive, and the like, and you are always in sync.
    • You choose an appropriate bibtex key you will remember.

    The bad

    • It doesn't auto-catalog, manage, or rename pdf files.
    • If you use several bibtex files, it is not obvious to move references from one to the other, except by export/import.
    • It doesn't auto-create the bibtex keys.
    • It doesn't ocr for references.

    Workflow

    I use Zotero and JabRef. Zotero manages my literature in the same way iTunes manages my music collection. It is useful though, to make/export a small bibtex file when you finished a paper. It's faster and it secures your references. Also, sometimes Zotero skrews up the references (say, names with multiple uppercase characters), and you can solve this in JabRef.

    A few ways to make the most use of Zotero:
    • Make a dump folder for new documents. I do this by quarter.
    • Use three kinds of tags:
      • Some generic terms: TO DO, CLASSIC, STARS
      • The paper's keywords or theme
      • Some nickname, or the project or institue the paper comes from
    • Use the notes, but do not overinvest in this, because it is too software specific and you'll lose notes and folders one day for sure. I generally give up why I downloaded a paper or who sent it to me.
    • Do not catalog other things than literature. It could replace explorer, but you'll waste your time.
    • Make a folder for each project, with two subfolders: a) literature, and b) references. In references, you keep what you reference to in the paper. 
    • If you write several papers, make several references folders.
    • Export the references folders to bibtex for survival. Polish with JabRef, and edit the bibtex files when you later pick up the work on the paper. By then, your library will have changed and will mess up your paper.
    • Example of the latter: Zotero auto-assigns bibtex keys, say AuthorYearA/B/C. If more articles are imported, those will change and you'll be miserable.
    Some non-workflow related hints:
    • Use a cheap WebDAV server to sync. It works well, won't mess up your database like dropbox would.
    • Go through the pain of setting up Firefox if you're on mac.
    • Solve the Bibtex export problems.
    • Spent your free time tidying up your database. It's your comparative advantage.

    Online sources

    JobAt Loonwijzer

    http://content.jobat.be/nl/loonwijzer-starterslonen/

    Deze keer niet op basis van een enquête, maar via experts. Een leuke tool, wetenschappelijke waarde is wellicht eerder beperkt.

    woensdag 13 oktober 2010

    LaTeX

    Update 20-06-2013

    Probleem

    Na heel wat uren turen onder de Office-motorkap blijven veel problemen onopgelost. Vooral Word werkt soms tegen:
    • Nummering van hoofdstukken en secties
    • Insluiten van vectorafbeeldingen
    • Dimensies van tabellen
    • Cross references naar tabellen en grafieken
    • Inhoudstabellen
    • Paginanummering, first pages en secties
    • Paginadimensies, illustraties
    • Compatibiliteit illustraties in Excel, Powerpoint en Word
    • ...
    Met andere woorden, het is een boeltje. Ondertussen hoor je dat er een markuptaal bestaat die al die zaken onder controle houdt, LaTeX. Ik experimenteer daar ondertussen al even mee.

    Het systeem

    Zoals veel dingen uit de alternatieve wereld van computernerds zijn de interfaces van de programma's onoverzichtelijk en is de installatie al meteen problematisch. In essentie heb je twee programma's nodig.

    Eén: een 'parser', een programma dat de code omzet in - laten we zeggen - een pdf'je. Dat kan MikTeX zijn of TexLive. Het komt allemaal op hetzelfde neer. Je moet wel de toepassing tex.exe weten te localiseren (onder Windows). Ik heb TexLive geïnstalleerd om alternatief te doen.

    Twee: een frontend of editor. Dat kan bij wijze van spreken kladblok zijn, maar het is interessanter om een programma te gebruiken waar bijvoorbeeld knoppen met shortcuts voor bepaalde commando's reeds in aanwezig zijn en waar je met een muisklik het document kunt naar de parser sturen. Ik gebruik hiervoor TexMaker. Meer populair is TexnicCenter, en voor sommige mensen de tussenslag LyX, die reeds een indruk geeft van je output. Ter vergelijking: in Word zie je quasi exact de uiteindelijke output.

    Mijn ervaring:
    • LyX: nutteloos, je kan de LaTeX code niet wijzigen (!)
    • TechnicCenter: oeverloos, er komt geen einde aan de foutmeldingen, zelfs voor een goede file
    • TexMaker: heel erg goed, overschrijft je pdf's en je opent ze met de interne viewer in no time
    Je kan ook alles online laten geschieden. Een briljant idee, maar het werkt nog niet zo goed. Zie:

    Voordelen

    • Het ziet er goed uit - je hebt standaard een heel wetenschappelijke stijl, en met XeTeX wordt het zelfs artistiek.
    • Systematiek is heilzaam.

    Nadelen

    Eerste grote nadeel: samenwerken. Iets als track changes bestaat wel, maar ik durf mij er eerlijk gezegd niet aan wagen, laat staan om iemand anders te dwingen LaTeX te begrijpen.

    Tweede nadeel: cite while you write blijft een beetje klungelig, want je moet in de .bibtex-file keys bepalen voor de referenties. Vanuit Zotero wordt dit automatisch gedaan, maar afhankelijk van de gebruikte plugin krijg je andere keys. Die zijn te manipuleren in JabRef, maar dit kan in feite enkel op het laatste moment wanneer je een definitieve, en paper specifieke referentielijst hebt, zoniet wordt je werk toch telkens overschreven.

    Derde gigantische nadeel: tabellen. Probeer in HTML een tabel te maken: dat gaat niet. In LaTeX is het net zo. Je doet er dan ook best aan om te werken via Excel en een plug-in. Dat voorspelt wel problemen, uiteraard. Enkele links:
    Voor het gebruik van booktabs moet je in de 'preamble' of 'head' de volgende lijn toevoegen:

    \usepackage{booktabs}

    Vierde nadeel: als er een fout in de code zit, krijg je geen output. Begin dan maar te debuggen.

    Nog kritiek:
    Links

    woensdag 15 september 2010

    Proven Models

    http://www.provenmodels.com

    MaslowPorter? Schumpeter?

    Mintzberg?
    Mintzberg?
    Mintzberg?

    Het geweldige Proven Models vat de belangrijkste HRM-modellen samen. Een handige kapstok voor onmiddellijk gebruik of verder onderzoekwerk.

    maandag 13 september 2010

    Graph schemes

    Voor het project gaan we een scheme aanmaken, gebaseerd op s2color. De waarden die moeten veranderen zijn:

    - Achtergrond: wit
    - Kleurcyclus: blauwschema als volgt,



    RGB colour scheme
    red  green blue
    Farbe 1 28 95 117
    Farbe 2 81 143 163
    Farbe 3 123 181 199
    Farbe 4 178 217 229
    Farbe 5 217 238 244


    http://www.stata.com/help.cgi?scheme+files
    http://www.ats.ucla.edu/stat/stata/faq/showmark.htm

    vrijdag 27 augustus 2010

    Productcyclus van een theorie

    • creëren
    • corrigeren
    • repliceren
    • interpreteren
    • adviseren
    • executeren

    donderdag 26 augustus 2010

    Macro's in Stata

    Ik heb nog steeds geen idee wat het verschil is tussen global en local macro's in de praktijk. Mocht ik tijd hebben, dan vind ik het wellicht hier:

    http://data.princeton.edu/stata/programming.aspx

    dinsdag 24 augustus 2010

    Grafieken

    Scatterplot with a regression line
    http://www.ats.ucla.edu/stat/stata/faq/scatter.htm

    Regression line with data fit
    http://www.ssc.wisc.edu/sscc/pubs/4-25.htm

    SPSS

    I am a long time user of SPSS. For many years, it was all I knew, and I managed to write fairly complex macros in SPSS 16. Then I needed to make a lot of very similar graphs, looping over groups, and it just didn't do the job. That's when I switched to Stata and never looked back.

    Because of collaboration and to convert very large datasets to SAS and Stata, I may use it every now and then. We have SPSS 20 and it is a little improved, having syntax highlighting and a more stable feel. The looks on the other hand are just childish and the language remains cumbersome.

    The SPSS code manual is not very well organized. For help, you'd want to go to the UCLA website or to the SPSS forum. I do not post there anymore though.

    vrijdag 20 augustus 2010

    Inverted Mill's ratio / Heckmann's Lambda

    Een kort berichtje om te zeggen dat:

    • De twee benamingen op dezelfde techniek slaan
    • De techniek bedoelt is om coëfficiënten te controleren voor een ontbrekende populatie
    Voorbeeld
    Loonevolutie van vrouwen steiler dan verwacht, niet omdat die zo steil is, maar omdat er uitval is along the way.

    dinsdag 17 augustus 2010

    Dummy's in Stata

    zoals gewoonlijk, heel eenvoudig:

    tab variable, generate(dummyvariableroot)

    als je deze wil gebruiken in een analyse kan je de korte vorm toepassen door een asterisk achter de root te plaatsen:

    regression depvar dummyvariableroot*

    In een regressie zal er waarschijnlijk automatisch één dummy verdwijnen, maar als je zelf wilt kiezen welke dummy dan moet je het het manueel doen.

    http://www.stata.com/support/faqs/data/dummy.html

    donderdag 29 juli 2010

    Kaartjes maken met Stata

    Alles staat hier mooi uitgelegd:
    http://www.stata.com/support/faqs/graphics/spmap.html

    In feite volg je 5 stappen:

    1. Download een kaart (hier of hier)
    2. Maak een convergentietabel tussen de clusters (landen, regio's, gemeentes) op de kaart en de codering in de data
    3. Maak een dataset met de te plotten statistieken (cijfers per land)
    4. Pas de codering van de kaart via de convergentietabel to op de data
    5. Run spmap
    Het grootste probleem zijn de kaarten. Op dit moment heb ik wel een stuk of wat eilanden op de Atlantische rig (de Azoren), maar Cyprus ontbreekt volledig ...

    International Education Statistics

    Friedrich Huebler, met een site zoals deze, alleen beter en over onderwijs.

    Schitterende Stata grafieken & kaarten

    http://huebler.blogspot.com/

    WEKA

    I don't know what it is, but it's free:

    http://www.cs.waikato.ac.nz/~ml/weka/index.html
    http://weka.wikispaces.com/
    http://weka.sourceforge.net/explorer_screenshots/PreprocessPanel.png

    What stats package to use?

    Introduction

    Boys like their toys, and this is not different with statistical packages. It's a perpetual and heated debate and when you've landed at some point and think your workflow is good, technology passes you and sets you back. 

    Here's an old discussion that I first consulted, but below I make my own considerations. In short: I'd use Python for big data, Stata for analysis, and R if I have to (e.g. for some graphs). Everything else I would ditch.

    Stata

    Stata is my program of choice. It is quite expensive, but mind you that for a couple of hundred euros, depending on the flavour, you'll not only get an easy and robust statistical software package, but also fast support, a good community, useful user commands, and a great documentation source. Fun fact: all documentation is read by the wife of the founder, who's not a statistician but perhaps even smarter. If she doesn't understand what the statisticians are saying, it goes back to the drawing board. 

    The bad things: forget about ever copy-pasting anything. You'll also need to have a lot of memory on your computer, as Stata loads the whole file and just one at a time (although you can 'preserve' a file temporarily to work on something else in between).

    Python

    Python is the next language I will learn. I have used chunks without understanding what I was doing, but I like the sound of the language, and it's the logical step-up after Stata, it seems. Many people are using it and so will I.

    R

    I don't like R. There is a thorough discussion here, circling around leaving Stata for R, but ending up in concluding what I conclude about: R is a mixture of a coding language like Python and a statistical language like Stata, but because it is open source the support is unsure, the community tends to be geeky and unfriendly, the documentation is poor, and the language consistency - even if the structure is good because it is a programming language - is bad. Some commands have their own inner programming language and that is plain bad. 

    The good things: it is free and R Studio is a great user interface. It has good graphic capabilities, and 

    Mplus

    I don't know Mplus. Colleagues use it when there are issues with missing values, and the programmers are said to be the best statisticians in the world. So it must be good, but I don't use it.

    SAS

    This is old software. It is too complicated, and while it can do a lot through obscure options, it is not flexible enough to do what you want.

    SPSS

    This is bad software. It is a scandal that some universities still teach this.

    Some R resources

    Apparently the single best manual for R: https://r4ds.had.co.nz.

    woensdag 28 juli 2010

    Grapje

    You have to love Stata manuals:

    "Although some have said that there are as many cluster-analysis methods as there are people
    performing cluster analysis. This is a gross understatement! There exist infinitely more ways to
    perform a cluster analysis than people who perform them."

    donderdag 15 juli 2010

    Data Visuals

    Een wetenschapper heeft twee taken:

    • Verklaringen vinden
    • Verklaringen tonen
    Dat tweede punt kan op allerlei manieren gebeuren. Ten aanzien van collega's liefst zo exact mogelijk. Dat leidt tot tabellen, modellen en tekst. Maar er zijn nog andere mensen: beleidsmakers, consumenten, het middenveld, ... Zij vertrouwen een wetenschapper op zijn woord, maar geloven hem of haar pas echt als er een plaatje bij komt dat ze begrijpen. Zie daar de bestaansreden voor Data Visuals: grafieken die de vinger op de wonde leggen.

    Omdat ik nu liever in mijn bed zou kruipen geef ik gewoon de links. Zoals gebruikelijk is er weer te veel informatie, daar kunnen andere informatiedesigners zich later over buigen. Enkele lessen:
    • Edward Tufte is een referentie in het domein
    • Pie charts deugen zelden, 3D pie charts nooit


    De links dus:

    • http://lifehacker.com/5485624/look-at-data-like-a-statistician-minus-the-ph-d
    • http://flowingdata.com/2010/02/17/road-to-recovery-is-the-recovery-act-working/
    • http://img390.yfrog.com/img390/8971/he1.png - Bush vs Obama graph
    • http://data.bls.gov/PDQ/servlet/SurveyOutputServlet
    • http://flowingdata.com/2010/03/04/think-like-a-statistician-without-the-math/
    • http://www.concurringopinions.com/archives/2007/02/pie_charts_the_1.html
    • http://www.edwardtufte.com/bboard/q-and-a?topic_id=1
    • http://www.edwardtufte.com/bboard/q-and-a-fetch-msg?msg_id=00018S&topic_id=1
    • http://www.information-management.com/issues/20050101/1016296-1.html?pg=2


    Stats site Belgian Presidency

    http://eu2010.statbel.fgov.be/indexue_en.htm

    Looks rather useless to me

    woensdag 14 juli 2010

    Graph output in Stata

    x
    Ik vind de Stata grafieken de beste die er zijn, maar je mag het zelf niet verknoeien. Enkele regels:

    Gebruik vector output
    D.w.z. schaalbare formaten zoals .epd, .emf (windows) of .pdf (mac). Je ziet helaas meteen het probleem: je kan niet beide door elkaar gebruiken. Bovendien is de .pdf output slecht, waardoor je met een convertor .epd-.pdf moet werken. Omslachtig. Er zijn twee dingen beter aan windows: .emf en office 2007 ... Helaas. En .epd is maar een raar formaat, iets voor grafici waar de rest van de wereld beter van af blijft.

    Gebruik de juiste resolutie
    En dan hier de caveat: dit is niet de maximale resolutie. JPEG's en PNG's zijn namelijk gemaakt om op ware grootte te tonen. Verkleinen van een gecomprimeerd beeld is dus dubbel zinloos. Voor documenten is een resolutie (horizontaal) van 400 ideaal, voor slides gebruik ik 1280 (worden full screen getoond of geprojecteerd). Het schijnt dat ook de resolutie van de printer de afbeeldingsresolutie bepaalt. Samengevat: produceer output met de resolutie van het medium dat die output zal tonen.

    Syntax
    graph export permmeansd1280.png, width(1280) replace
    graph export permmeansd1960.png, width(1960) replace
    graph export permmeansd800.png, width(800) replace
    graph export permmeansd400.png, width(400) replace
    graph export permmeansd640.png, width(640) replace
    graph export permmeansd320.png, width(320) replace
    graph export permmeansd.emf, replace

    woensdag 7 juli 2010

    This command in STATA

    Niet alleen interessant voor switchers, maar ook leuk om trucs te weten te komen:

    SPSS > STATA
    http://www.ats.ucla.edu/stat/stata/faq/spss_command_to_stata.htm

    SAS > STATA
    http://faculty.fuqua.duke.edu/home/blanc004/data_programming/sas_to_stata/sas_to_stata.html

    vrijdag 25 juni 2010

    Germán Rodríguez, Office of Population Research, Princeton University

    http://data.princeton.edu/stata/

    Een geweldige site, met informatie over General Linear Models, Mixed Models, Stata en R.

    woensdag 23 juni 2010

    Multilevel analyse

    Er is al veel te veel over multilevel analyse geschreven, vandaar een selectie van termen die voor mij nuttig zijn/waren:

    Fixed vs random effects
    • Fixed effects: interindividuele effecten
    • Random effects: individuele effecten
    Random effecten laten toe dat een bepaalde parameter voor elke eenheid verschilt, waardoor de overige parameters "onafhankelijk" van deze parameter geschat worden.

    Voor intercepts is dit heel nuttig: een relatie kan voor elke L2 case gelijk zijn, maar om tal van andere redenen kan het intercept variëren. Een random effect intercept only model toont a.d.h.v. de variantie rond dit intercept (variance components), hoeveel variantie op level 2 bestaat, en dus door variabelen op dat niveau moet worden wegverklaard.

    Andere parameters (slopes) kunnen ook op random gezet worden om na te gaan of er nood is aan het inbrengen van verklarende variabelen op level 2 die interageren met slope.

    Bij wijze van voorbeeld deze grafiek met data voor acht fictieve landen op een fictieve Y-variabele tussen het jaar 2 en het jaar 12. De groeivoet van Y is zo geconstrueerd dat deze steeds 3% is.

    Het belang zit 'm in het verschil tussen de oranje en de rode fitted line. De rode lijn volgt exact de helling van elk land. In dit geval is het gemiddelde van de trends gelijk aan de gemiddelde trend. De oranje trendlijn is gebaseerd op een steekproef uit alle punten (in het groen gemarkeerd): elk land behoudt dezelfde trend, maar hier en daar vallen er cases weg. Door het intercept te randomiseren, zou je ook deze lijn correct inschatten.



    Intraclass correlatie
    Betekenis: het deel van de variantie dat door groepsverschillen wordt verklaard.

    Rho = sigma2(u)/som(sigma2u,sigma2res)

    De sigma's worden geschat met een intercept only model (xtreg, xtmixed, anova, ... ). Vergeet niet de sigma's te kwadrateren. Voor Bernouilli-schattingen wordt een andere schatter gebruikt 

    wiki: http://en.wikipedia.org/wiki/Intraclass_correlation


    Three level vs cross classification

    Wanneer een case tot twee niet geneste groepen behoort (vb. land en sector of vakbond en voetbalclub), spreekt men van cross classification op het tweede niveau. Termen als non hierarchical of non nested worden hier ook voor gebruikt.

    Er is een kleine omweg voor de case sector en land. Als je verondersteld dat sector een landspecifiek effect heeft, dan kan je de sectoren hernoemen zodat bouw-land A verschilt van bouw-land B. Wat je dan niet onderzoekt is de algemene impact van de bouwsector, maar wel de sectorale impact binnen een land versus de internationale verschillen op level 3.

    Interessant, hé.

    Links

    dinsdag 15 juni 2010

    Estout

    Stata is rampzalig om gebruiksklare output te leveren. Wie toch wil sukkelen, of bij gebrek aan beter, kan de Estout add on installeren:

    findit estout


    Je moet een stuk naar beneden om de installatiefile met een rare code te vinden.

    Maar dan loopt het wel lekker, informatie bij de vleet:

    esttab

    de collectie est-ado's is uitgebreid, maar in de praktijk zijn we eigenlijk niet geïnteresseerd om Stata te gebruiken voor de opmaak van tabellen. Het is immers een ergerlijk programma op dat vlak: nu eens gaat het niet, dan weer wel ... Wat je eigenlijk wil zijn de meest simpele, onopgemaakte tabellen waar men bij de redactie nog alles mee kan aanvangen. Daarom gebruik ik:

    esttab, plain wide

    dankzij plain zien we geen irritante kadertjes, en dankzij wide staan de t-waarden nààst i.p.v. onder de bèta's. Waar de vrijheidsgraden of p-waarden gebleven zijn, weet ik niet, jammer genoeg. Doorgaans is t ~ z door een hoge n, en heb je die vrijheidsgraden niet nodig om de significantie te benaderen, maar we zitter er natuurlijk altijd liever klop op.

    Voorbeeld

    eststo clear
    sysuse auto
    eststo: quietly regress price weight mpg
    eststo: quietly regress price weight mpg foreign
    esttab, plain wide


    ... simpel (let op quietly)



    Nog een nieuwtje: Stata 11.1 heeft nu ook estimation formatting. Mooi zo!


    Links
    http://gettinggeneticsdone.blogspot.com/2009/06/make-pretty-regression-tables-in-stata.html

    Carolina Population Center

    Stata heeft de beste documentatie, maar niettemin moet die de volledigheid laten voorgaan op een user-centered approach. Surf daarom naar:

    http://www.cpc.unc.edu/research/tools/data_analysis/statatutorial

    ... een héél didactische collectie tips voor Stata.

    Ik apprecieer:

    Stata weights

    Opnieuw iets bijgeleerd over Stata waar de gemiddelde SPSS-gebruiker niet van wakker lag: gewichten. Ik had het er al eerder over (hier). Nu blijkt dat je tóch een robuuste schatting van de standaardfouten kunt bekomen.

    Even overlopen:

    • pweight : doorgaans de beste keuze voor samples die herwogen zijn. Een grote waarde betekent ondervertegenwoordiging en dus een onnauwkeurige schatting. De case zal een groter belang krijgen in het berekenen van de gezochte parameters, maar de fout zal vergroten. (vb. project wage gap, decompositie)
    • aweight : wanneer waarden voor een case gemiddeldes zijn: een groot gewicht betekent een meer nauwkeurige schatting. De case zal enerzijds een groter belang kijgen, en daarnaast zal de fout kleiner worden. (vb. project loonvorming)
    • fweight : te gebruiken wanneer de case in feite meermaals voorkomt, maar de frequencies gecollapsed zijn (vb. datalevering Eurostat voor project Walqing)
    • iweight : don't bother

    Threefold decomposition

    Ik heb niet erg veel tijd, dus bij wijze van nota:

    De decompositiemethode, met als z'n goede en kwade kanten, heeft een aantal nevenvormen. Gewoonlijk, en liefst, gebruik ik de twofold- of omegamethode. Hier bepaal je de referentiegroep voor de coëfficiënten, eventueel via gewichten.

    Een andere methode is threefold, waarbij dezelfde groep de geïsoleerde bèta en gemiddelde waarde heeft. Dit heeft het voordeel dat het gemakkelijker te plotten is (zie presentatie). Het nadeel is dat er een restterm is die men CE of CxE noemt, en die interacties aangeeft. Helaas paashaas, die term is nauwelijks op een zinvolle manier te interpreteren.

    Decompositie met Stata

    Indertijd heb ik een macro geschreven voor SPSS, waarmee de Cotton, Reimers, Neumark & de twee Oaxaca-Blinder decomposities kunnen berekend en gebootstrapt worden. Achteraf bekeken zot werk.

    Het probleem met die macro is dat je zijn regels moet volgen, en dat vraagt veel aanpassingen aan de dataset en input voor de macro. In Stata bestaan twee gelijkaardige commando's die deze klus in één lijn klaren. Het enige nadeel is dat ze elk unieke eigenschappen hebben die we helaas niet kunnen samennemen.

    De commando's zijn oaxaca en nldecompose. Laat je niet afschrikken door die laatste: nl staat voor niet lineair, maar eigenlijk is het gewoon een uitbreiding van (bijna) alle regressies die Stata heeft, waaronder ook de normale regress.

    Wat zijn de voor- en nadelen:

    • oaxaca is erg to the point, maar lineair. Het voordeel is dat je het detail van een decompositie kunt opvragen (verklaring per (set van) verklarende variabelen), het nadeel is dat je de Cotton en Reimers specificatie niet kunt aannemen. Er is enkel: threefold, Neumark, Oaxaca 1 & 2.
    • nldecompose is zoals gezegd multifunctioneel, maar heeft het nadeel dat je het detail niet kan opvragen.
    Voor iemand zoals ik, die dus graag het detail van de Cotton specificatie te zien zou krijgen, is er geen oplossing. Jammer.

    vrijdag 4 juni 2010

    Software kiezen

    Er is altijd veel heisa rond het gebruik van statistische programma's. Ik ben geen expert in die materie, maar heb met enkele pakketten ervaring en dit is mijn indruk:
    • SAS
      • Voordelen
        • is bedoeld voor serieuze mensen, maken geen software om een jaar later weer te updaten
        • kan goed overweg met grote datasets: mijn indruk: het is het enige programma dat dit kan
        • wordt gebruikt in de privésector
      • Nadelen
        • moeilijke taal
        • duur
        • stug in het gebruik (vb. vervelend om telkens alle DATA commando's in te geven)
      • Persoonlijk
        • ik gebruikte het niet veel en heb de licentie niet vernieuwd
    • SPSS
      • Voordelen
        • ziet er simpel uit
        • toch bijna alle statistische mogelijkhede
        • ik vind OMS een handige functie
        • Python 
      • Nadelen
        • crasht
        • géén user-base
        • slechte troubleshooting
        • bijna zoveel updates als windows
        • duur, laat zich verkopen in verschillende pakketten, maar je weet eigenlijk nooit of en wanneer je die nodig zal hebben
      • Persoonlijk
        • ik ken het redelijk goed en gebruik het heel vaak
        • voor het construeren van variabelen is het erg gemakkelijk
        • voor het werken met grote datasets: het is mogelijk
    • STATA
      • Voordelen
        • de code is erg esthetisch
        • het programma is solide
        • de documentatie is uitmuntend
        • de user base actief
        • de mogelijkheden uitgebreid
        • goedkoop, open source
        • grafische aspecten zijn logisch
        • werkt op alle OS
      • Nadelen
        • werkt met slechts één dataset
        • ingewikkelder dan SPSS
        • output in excel krijgen blijft een groot probleem, alle plugins ten spijt
        • kan niét overweg met gigantische datasets (>RAM), kan afhankelijk van het OS wel of niet overweg met grote datasets
      • Persoonlijk
        • ik geeft het een kans
    • GRETL
      • Voordelen
        • gratis, open source, R based
        • goed voor longitudinaal onderzoek en kwantielregressie
      • Nadelen
        • beperkte mogelijkheden
        • crashes
        • povere output
      • Persoonlijk
        • ik gebruik nu eerder STATA
    • R
      • Voordelen
        • gratis, open source
        • compleet
      • Nadelen
        • ingewikkeld
      • Persoonlijk
        • nooit iets van begrepen
    • HLM
      • Voordelen
        • gebruiksvriendelijk
        • gespecialiseerd
      • Nadelen
        • niets
      • Persoonlijk
        • lang geleden
        • enkel nodig voor ML binary logistic
    Links



      woensdag 2 juni 2010

      Gewogen data

      Context
      Je hebt je data gewogen, omwille van een overselectie van bepaalde kleine groepen of omwille van een onderselectie door een slecht design. Kan gebeuren.

      Vraag
      Wat voor analyses kan ik nog uitvoeren? Zal de weging mijn standaardfouten beïnvloeden? Zijn de coëfficiënten juist als ik niet weeg?

      Antwoord
      Ik heb mij slechts over twee methodes gebogen: regressies en chi²-toetsen. Mijn conclusie is dat wanneer een analyse zich op variantie baseert, wegen niet aanbevolen is. In het andere geval (chi²) wél. Even nuanceren:

      Bij regressie hoef je niet te wegen: het gaat om het effect van één variabele op een andere. Weging zou eventueel outliers nadrukkelijker het effect laten bepalen, en dat kan gewenst zijn: er was immers een onderschatting van een bepaalde groep. Neem je echter de variabelen waarop de weging gebaseerd is in je model op als interactieterm, dan heb je net hetzelfde resultaat, een correcter model én juiste standaardfouten. Met andere woorden: wegen is over het algemeen af te raden.

      Nadelen: misschien begrijp je niet veel meer van je coëfficiënten door alle interacties en het intercept only model geeft geen populatiegemiddelde (in het volledige model is het intercept een gecontrolleerd gemiddelde).

      Chi² is een ander geval: het gaat hier om een eenvoudigere statistiek. Je vergelijkt verwachte en geobserveerde celpercentages. Die celpercentages zullen preciezer zijn bij een gestratificeerde steekproef. Maar dan moet je wegen, anders kloppen de percentages gewoonweg niet. Voor het aantal vrijheidsgraden gebruik je de ongewogen n (of de gewogen n als het gewicht een gemiddelde heeft van 1), of het aantal categorieën als de test dit vereist.

      Wat t-testen betreft denk ik dat het onmogelijk is een correctie test uit te voeren: een t-test is niet anders dan een regressie waar niet voor andere variabelen gecontroleerd wordt. Dat is precies de voorwaarde om ongewogen data te mogen gebruiken. Je zou dus moeten wegen, maar dan verandert de variantie, die precies het betrouwbaarheidsinterval bepaalt. Stata heeft hiervoor speciale weegtechnieken.

      Links
      http://www.sociology.ohio-state.edu/ptv/faq/weights.htm
      http://www.dcs.napier.ac.uk/peas/errors.htm

      maandag 17 mei 2010

      Gemiddeldes over landen heen

      Waar ik voortdurend mee sukkel is met het berekenen van gemiddeldes over landen heen. Daarom deze twee regels:

      1. Het gemiddelde van de sommen = de som van de gemiddelden
      2. Het gemiddelde van de ratios < > de ratio van de gemiddelden
      Dat tweede is verwarrend, omdat het in veel gevallen wél opgaat. Met randomgetallen is het echter meteen duidelijk.

      woensdag 5 mei 2010

      Gretl

      http://gretl.sourceforge.net/

      GRETL is een open source programma voor regressies, tijdsreeksanalyse en andere econometrische statistiek. Ik heb het gebruikt voor kwantielregressie. Best een knap programma, maar in de vorige versie zaten toch nog wat haperingen.

      donderdag 22 april 2010

      Werkbaarheidsmonitor SERV

      www.serv.be/werkbaarwerk
      Zeer aangename lectuur, eenvoudige tabellen met een analyse van de kwaliteit van arbeid voor geselecteerde profielen, opgesteld door de SERV. Knap werk!

      dinsdag 16 februari 2010

      De Guy-Goos these

      We vinden een effect van opleidingsniveau op de loondrift in interactie met de conjunctuur. dat negatief is in hoogconjunctuur en positief onder laagconjunctuur.

      Volgens Guy moet de verklaring niet bij de hooggeschoolden gezocht worden. Die boeren altijd goed, en dit effect zou niet verschillen naargelang de conjunctuur. De verklaring zit bij de laaggeschoolden. In een hoogconjunctuur komen de bonden sneller tot een goed akkoord, met extra premies e.d. In dat geval is er bovenop het salaris een extra looncomponent die uitgebreid is voor laaggeschoolden, terwijl voor hooggeschoolden weinig verandert. Een stijging van het opleidingsniveau betekent dan een daling van het aantal laaggeschoolden en het wegnemen van een drijfkracht achter de loondrift.

      Misschien ...

      vrijdag 5 februari 2010

      Backward sloping supply curve

      Op een bepaald niveau zal een hoger loon de tewerkstelling verkleinen, namelijk wanneer het substitutie-effect kleiner is dan het inkomenseffect. We zien dit aan de supply-curve (als het arbeidsaanbod al niet geheel inelastisch is).

      Substitutie-effect: vrije tijd wordt ingeruild voor arbeid, omdat dit het nodige geld opbrengt.
      Inkomenseffect: het inkomen is hoog genoeg om met minder arbeid het gewenste nut te bereiken, men zal minder werken bij een loonsverhoging van zodra dit nutsniveau bereikt is

      dinsdag 26 januari 2010

      Het Marshallcriterium en lineaire functies

      Beste vrienden van de eenvoudige mathematica,

      Vandaag leg ik u uit hoe je op het zicht een puntelasticiteit kunt vaststellen. De afleiding bespaar ik u, daarvoor zoek je wat achtergrond bij het Marshallcriterium. Het is niet moeilijk en ook niet belangrijk.

      De elasticiteit van een functie valt grafisch af te lezen op de raaklijn aan die functie als de verhouding tussen de afstand tot de Y-as en tot de X-as. Of je dus met een lineaire, concave of convexe functie te maken hebt doet er niet toe. Of de functie daalt of stijgt is echter wel van belang. De nuttigste eigenschap is echter dat deze raaklijn als een rotatie van de Y-as kan gezien worden waarbij de verhoudingen bewaard blijven. Met andere woorden: door een projectie van het punt op de Y-as wordt deze in twee delen verdeeld, waarvan de verhouding je de puntelasticiteit geeft.

      Er moeten dus twee punten op de Y-as geplaatst worden
      • A. snijpunt met de Y-as
      • B. projectie van het punt op de Y-as, evenwijdig met de X-as
      Deze kunnen op twee verschillende manieren ten opzichte van elkaar gesitueerd zijn
      • Bij een dalende functie in het eerste kwadrant is A >B
      • Bij een stijgende functie in het eerste kwadrant is B > A
      Hieronder een grafiek die dit een beetje illustreert. De punten A en B komen niet voor omdat deze, zoals gezegd, verschillen tussen de dalende functie (blauw) en de stijgende (groen). De blauwe stippellijn toont aan dat de loodlijn H op de Y-as, elke lijn uit het maximum op de Y-as in tweeën deelt.

      woensdag 20 januari 2010

      Geboorte van een beroep

      Bij de creatie van nieuwe jobs vindt er op organisationeel niveau een vertaling plaats van de macrofactoren die de beroepenstructuur wijzigen.

      Vb. macro: ontwikkeling internet door Amerikaanse defensie
      • organisatie (klassieke waardenketen)
        • R&D: evoluties zoals open sourcing van codes (vooral R&D binnen IT sector), samenwerken met onbekenden, incorporatie nieuwe technologie (vb. IP-telefonie, domotica)
        • IT: breidt uit, maar ook: concentratie/specialisatie in IT sector
        • administratie: versnelt, wordt efficiënter en slanker
        • core production: telewerk, mits aanpassing takenpakket
        • marketing: websites vormen een deel van de marketingmix, eerst als taak, dan als specialisatie, dan als nieuw beroep en ten slotte als een (sub)sector
        • customer service: klanten worden zelf ingeschakeld (FAQ, ...), maintenance wordt belangrijker dan service zelf

      donderdag 14 januari 2010

      Country groupings by institution

      This list includes some institutions regularly used for research. The dataset also gives the accession year.

      European Union

      EU (january 2014)

      Austria, Belgium, Bulgaria, Croatia, Cyprus, Czech Republic, Denmark, Estonia, Finland, France, Germany, Greece, Hungary, Ireland, Italy, Latvia, Lithuania, Luxembourg, Malta, Poland, Portugal, Romania, Slovakia, Slovenia, Spain, Sweden, The Netherlads, United Kingdom

      EU-15

      This is the European Union from 1995 to january 2004 (source). It is considered as the realization of a mature political union.

      Belgium, France, Denmark, Germany, Finland, Greece, Ireland, Italy, Luxembourg, The Netherlads, Austria, Portugal, Spain, United Kingdom, Sweden

      EU-25

      This is the enlargement of the EU in january 2004 with ten new member states, most of which from Central and Eastern Europe (CEE), referred to as NMS-10.

      EU-25 = EU-15 + NMS-10

      Austria, Belgium, Denmark, Finland, France, Germany, Greece, Ireland, Italy, Luxembourg, Portugal, Spain, Sweden, The Netherlads, United Kingdom, Cyprus, Czech Republic, Estonia, Hungary, Latvia, Lithuania, Malta, Poland, Slovakia, Slovenia

      EU-27

      The accession of Bulgaria and Romania on 1 january 2007. In this constellation, the Lisbon treaty was signed in 2009.

      EU-27 = EU-25 - NMS-10 + NMS-12

      Austria, Belgium, Denmark, Finland, France, Germany, Greece, Ireland, Italy, Luxembourg, Portugal, Spain, Sweden, The Netherlads, United Kingdom, Cyprus, Czech Republic, Estonia, Hungary, Latvia, Lithuania, Malta, Poland, Slovakia, Slovenia, Bulgaria, Romania

      EU-28

      Accession of Croatia 1 july 2013.

      EU-27 = EU-25 - NMS-12 + NMS-13

      Austria, Belgium, Denmark, Finland, France, Germany, Greece, Ireland, Italy, Luxembourg, Portugal, Spain, Sweden, The Netherlads, United Kingdom, Cyprus, Czech Republic, Estonia, Hungary, Latvia, Lithuania, Malta, Poland, Slovakia, Slovenia, Bulgaria, Romania, Croatia

      Other economic unions in Europe

      Euro zone

      Belgium, France, Germany, Finland, Ireland, Italy, Luxemburg, The Netherlands, Austria, Portugal, Spain, Greece, Slovenia, Cyprus, Malta, Slovakia, Estonia, Latvia

      European economic area (EEA)

      Iceland, Lichtenstein, Norway

      European Free Trade Agreement countries (EFTA)

      Iceland, Lichtenstein, Norway, Switzerland

      United Nations (UN)


      North Atlantic Treaty Organization (NATO)



      dinsdag 12 januari 2010

      Occupational Outlook Quarterly

      http://www.bls.gov/opub/ooq/

      Het Occupational Outlook Quarterly (Bureau of Labor Statistics) is een niet-gereviewde periodiek, toegankelijk voor niet-specialisten. De uitgaves zijn thematisch.

      Occupational Outlook Handbook

      http://www.bls.gov/oco/

      Het Occupational Outlook Handbook (Bureau of Labor Statistics) geeft omschrijvingen van beroepen en prospecties omtrent de evolutie van de vraag naar deze beroepen.

      New and Emerging Occupations

      Olivia Crosby (2002) 'New and Emerging Occupations', Occupational Outlook Quarterly, pp. 17-??

      Causes of new occupations

      • Technology
      • Demographic trends
        • aging
        • immigration
        • education
      • Laws
      • Business trends
      • Shifts in consumer needs and tastes
      Birth of an occupation
      • As a task added to an already existing occupation
      • Gaining importance, creating specialties
      • Combining tasks, becoming an occupation in itself
      Examples
      • Technology
        • Webmaster: didn't exist before the 1990s, a common occupation by now
        • Bioinformatics Engineer: depended on the technological advance in computers and the Human Genome Project, developed into a major at universities
      • Law
        • Diversity managers in trade unions (Belgium)
        • Environment auditors, prevention services (Belgium)
        • Certificating scientists (e.g. fireguarding doors)
      • Consumer needs
        • Fence jumpers, hired hackers to test security systems
        • Plastic surgery doctors
      • Business practices
        • HR managers
        • Quality control in hospitals
      • Demographics
        • State aid for asylum seekers
        • Geriatric psychiatrists
      etc.

      Loon in SILC 2007

      Household data

      De hele HY (010 tot 145) reeks vraagt naar het gezins inkomen.

      HY010 Total household gross income


      HX090 Equivalised disposable income
      HX100 Equivalised disposable income Quintiles

      Personal data

      zie WG project
      PY020n

      ISCO in SILC 2007

      Variabele: PL050
      Typologie: ISCO-88 (COM)
      Eenheid: werknemer
      Detail: 2 digit

      Opmerkingen
      • Verwijst naar de hoofdjob (arbeidsduur), of laatste job
      • Level 1 wordt samengenomen (11, 12, 13) voor part timers
      • Aanpassing in functie van SILC in annex (ISCO-88 COM)
      Achtergrond

      Determinanten van de beroepsindeling:
      • Aard van de job (taken en verplichtingen)
      • Vereiste vaardigheden ((opleidings)niveau en specialisatie)
      • Evt. vestigingsgrootte

      NACE in SILC 2007

      Variabele: PL110
      Type: NACE Rev 1.1
      Eenheid: vestiging hoofdjob respondent (volgens arbeidsduur)
      Detail: geclusterd sectie-niveau, 12 (13) levels

      "a+b" (1 to 5)
      "c+d+e" (10 to 41)
      "f" (45)
      "g" (50 to 52)
      "h" (55)
      "i" (60 to 64)
      "j" (65 to 67)
      "k" (70 to 74)
      "l" (75)
      "m" (80)
      "n" (85)
      "o+p+q" (90 to 99)
      "undef" (0)

      Achtergrond
      Economic activities are characterised by the input of goods or services, a production process and the output of products.

      Vraag
      • Via gegevens over het bedrijf (naam, adres), te linken aan een bedrijfsregister
      • Volgens beschrijving van de activiteit van het bedrijf volgens de respondent

      maandag 11 januari 2010

      Beginnen met Stata II

      Een tab delimited bestand openen
      insheet bestandsnaam incl pad en extensie


      Een dta-file openen
      use "bestandsnaam incl pad en extensie"

      Alle datasets sluiten
      drop _all


      Frequentietabel
      tabulate variabele


      > het nadeel is dat de frequentietabel altijd thousands separators gebruikt, default komma's. Er zijn drie oplossingen voor dit probleem:
      1. Windows eveneens instellen met een comma als thousands separator
      2. Een kruistabel maken met een constante variabele
      3. Omkeren separator & decimaal punt: set dp comma|decimal, permanently
      Split file
      sort variabele
      by variabele: commando

      Kruistabel
      table rijvar kolomvar


      Output format
      na het commando en een komma: format(%9.0f), met varianten naargelang de notatie

      Tabel exporteren
      Stata houdt niet van grote tabellen. Is de tabel breder dan de schermbreedte, dan wordt deze op een volgende lijn verdergezet. Je kan niet veel anders doen dan dit deel mee selecteren en in een programma als excel netjes aan het eerste deel plakken.

      Een andere eigenaardigheid is de manier waarop je een tabel selecteert. Je moet als het ware de tekst selecteren. Van zodra je een stuk van een rij hebt geselecteerd, zal bij het kopiëren de hele rij op het klembord worden geplaatst. Je kan een tabel opslaan als tekst, als een tabel, als een html tabel en als een afbeelding. Enkel opslaan als een tabel is zinvol.

      SPSS commando's

      http://www.ats.ucla.edu/stat/Stata/faq/spss_command_to_stata.htm

      België scoort extreem zwak op lissabon doelstellingen

      Vacature 8-1-2010
      http://www.vacature.com/blog/belgi%C3%AB-scoort-extreem-zwak-op-lissabon-doelstellingen

      vrijdag 8 januari 2010

      Labour Force Survey

      De labour force survey (LFS) is een grootschalige enquête naar de tewerkstelling in Europa. Meer bepaald wil men de werkzaamheid, werkloosheid en inactiviteit in kaart brengen. De gebruikte concepten en definities volgen de ILO-richtlijnen. Eurostat coördineert, de dataverzameling gebeurt door de nationale statistische diensten (sampling, ontwerpen vragenlijst, afnemen interviews).

      • Landen: EU-27 en 3 EFTA-landen (IJsland, Noorwegen en Zwitserland, dus excl. Liechtenstein)
      • Periodiciteit: kwartaalbasis
      • Populatie: 15+
      • Start: 1983
      • NACE: 4 digit, rev. 1.1 van 1992 t.e.m. 2008
      • ISCO: 2 of 3 digit, ISCO-88
      • Disseminatie: Eurostat website, NuChronos dataset, Eurostat data requests
       Kenmerken steekproef
      • 1.7 miljoen cases per kwartaal
      • 0.2 tot 3.3% van de populatie
      • Referentieweek gerandomiseerd over het kwartaal (sinds 2003)
      Voordelen



      Nadelen

      country coverage
      But:  incomplete (not all use retrospective questions)
       relatively comparable data
      But: questions are not necessarily posed in the same way as in EU LFS
      Recall problems increase as time goes by which can increase non-response and reduce quality of results
      Retrospective questioning  will be especially problematic in the case of proxy interviews
      Coding practices can change over time
      AND, of course…sample sizes


      sample size:
       approx. to 1,7 mio of individuals (2004, q2).
       The sampling rates vary between 0.2% and 3.3% across the countries.

      Cell sizes & reliability
      Eurostat guidelines:minimum limits for cell sizes of quarterly results
      (from 1500 to 21 000, depending on year, country)
      Some solutions
      Use of yearly averages (average of quarterly results)
      Use of 3-year averages
      Exclusion of diverging years / countries 


      Links
      Website LFS: http://circa.europa.eu/irc/dsis/employment/info/data/eu_lfs/index.htm
       Fiche LFS (EUROSTAT): http://epp.eurostat.ec.europa.eu/cache/ITY_SDDS/en/employ_esms.htm

      woensdag 6 januari 2010

      Deskilling

      Voer voor luddieten: deskilling is het overbodig worden van skills door het vervangen van manuele arbeid door machines, robotten en computers. Ook het opdelen van de productie in afzonderlijke taken, vereenvoudigt de vereiste skills, die maar op één taak betrekking hebben.

      Referentie:
      Braverman, H. (1974) 'Labor and Monopoly Capital. The degradation of Work in the Twentieth Century', New York & Londen: Monthly Review Press

      zondag 3 januari 2010

      homothetic function

      In economische literatuur noemt men een verhouding homothetisch (homthetic) als ze afhangt van de verhouding van de prijzen. Voorbeeld: stel dat appels 50 cent kosten en bananen 1 euro, dan zal het aantal appels zich verhouden ten opzichte van het aantal bananen zoals hun onderlinge prijzen. Dit voorbeeld is nog eenvoudig: bananen kosten dubbel zoveel, dus zullen er half zoveel gekocht worden. Een budget van 10 EUR wordt bijgevolg verdeeld over 10 appels en 5 bananen. Ik zou ook niet weten waarom.

      http://www.encyclo.co.uk/define/Homothetic

      A function of two or more arguments is homothetic if all ratios of its first partial derivatives depend only on the ratios of the arguments, not their levels. For competitive consumers or producers optimizing subject to homothetic utility or production functions, this means that ratios of goods demanded depend only on relative prices, not on income or scale.