Statistische predictie wint van intuïtie

Alles over Assessments interpretatie van: ‘Mechanical Versus Clinical Data Combination in Selection and Admissions Decisions: A Meta-Analysis’ (Kuncel et. al.)

Inleiding

Al sinds het midden van de vorige eeuw is er een discussie over mechanische versus klinische predictie. Met gebruik maken van het gebruikelijke instrumentarium, niet alleen uitkomsten van testen en vragenlijsten maar ook bijvoorbeeld het oordeel over een CV of optreden bij een rollenspel, wordt bij mechanische predictie volgens een formule geoordeeld waarin voor elk onderdeel van de procedures een vooraf geformuleerde schaal en een gewicht wordt opgesteld en vooraf een cutoff score wordt bepaald.

Voorbeeld: alle onderdelen van het assessment programma worden op een stanine schaal beoordeeld. Een formule zou dan zijn: 1 x score op Extraversie (4) + 2 x score op Conscientieusheid (6) + 4 x score op Cap Testen (3) + 2 x score op inlevingsvermogen gemeten in rollenspel (6) = 40. Cutoff is 45

Een klinische predictie is gebaseerd op het holistische oordeel van de beoordelaar. Er is weinig onderzoek gedaan om beide aanpakken te vergelijken. De schrijvers hebben voor hun meta-analyse uiteindelijk 17 studies gevonden (tussen 1943 en 2003!!), waarvan de helft over studiesucces. Deze samenvatting beperkt zich tot onderzoeken in een werksetting. Het aantal proefpersonen varieert van 30 tot enkele honderden. Het wordt niet duidelijk wat hun achtergronden zijn maar het lijkt aannemelijk dat het starters op de arbeidsmarkt zijn die in grotere organisaties in een vorm van MD-programma belanden en van wie het functioneren en beoordelen onderling vergelijkbaar is.

Het onderzoek.

Voor de praktijk is vooral van belang de restriction of range (zie bijvoorbeeld ook het ASA-model van Schneider). Er vindt selectie vooraf plaats: wie solliciteert er, in het selectieproces vallen mensen af en een aantal van de aangenomenen verlaat al snel de organisatie. Er blijft dan een vrij homogene groep over, leidend tot lagere correlaties tussen voorspellers en succes dan bij een diverse groep. Tweede aandachtspunt is de kwaliteit van het criterium, het oordeel van de leidinggevende, zoals bekend vaak behoorlijk onbetrouwbaar, lees toevallig, komt immers ook meestal klinisch tot stand gekomen.

De uitkomsten

De mechanische voorspelling is beter, bij presteren in het werk als criterium .44 vs. .28. Dat betekent een 50 % betere voorspelling. Bij loopbaanperspectief als criterium .42 vs. .36. Waarom het eerste verschil zoveel groter is dan het tweede is interessant maar er is vooralsnog geen verklaring.

Waarde voor de praktijk

Wat kunnen we met deze inzichten, los van de conclusie dat het voor een praktijk psycholoog vrijwel onmogelijk is om zelf een dergelijk vergelijkend onderzoek uit te voeren.

  • De mens handelt uit zichzelf niet rationeel. Dat geldt op vele terreinen: waarom maken wij extra kosten bij een bank om voor ons te beleggen terwijl we hetzelfde rendement kunnen halen door de AEX te volgen en veel minder kosten hebben of kopen we dure merkpolo’s die uit dezelfde textielfabriek komen als een merkloze polo? Dat geldt dus ook voor selectie: we weten het wel maar doen het niet.
  • De auteurs maken gebruik van het Brunswik Lens model dat een onderscheid maakt tussen het waarnemen van aparte kwaliteiten en vervolgens het integreren daarvan tot een oordeel. Conclusie: we zijn wel aardig goed in het waarnemen en beoordelen van de aparte kwaliteiten maar slecht in dit combineren tot een totaaloordeel.
  • De suggestie van Alles over Assessments: Steek vooral energie in het tevoren onderzoeken welke eigenschappen nodig zijn voor succes en bedenk hoe je die wilt meten, bij voorkeur multi trait multi method, dus bijvoorbeeld een vragenlijst en een interview. Bepaal per eigenschap het gewicht, stel op basis daarvan een formule op en bepaal een cutoff score (en vraag een collega onafhankelijk hetzelfde te doen). Er is naar onze ervaring veel intervisie waarin testuitslagen en rapportages besproken worden maar veel minder discussie over je predictie model.
  • De formule is ook een goed uitgangspunt om met de opdrachtgever te bespreken. Je maakt duidelijk hoe je de gegeven informatie hebt gewaardeerd, legt verantwoording af voor je keuze en creëert al tevoren draagvlak voor je advies. Het kan ook helpen om het realiteitsgehalte van de functie-eisen te bespreken. Verwacht je, rekening houdend met de arbeidsmarkt en het aanbod van de werkgever, dat er geïnteresseerde sollicitanten zullen zijn die aan deze eisen (het halen van de cutoff score) kunnen voldoen.
  • Je kunt met dit model ook goed rekening houden met specifieke omstandigheden. Voorbeeld: Hoewel intelligentie in veel gevallen een goede voorspeller van succes is, kan zorgvuldig en klantgericht werken soms veel belangrijker zijn en is alleen een echt lage intelligentiescore een contra-indicatie. Het model is ook bruikbaar in situaties waar we ons klinisch oordeel graag baseren op ons inzicht in specifieke omstandigheden. “Deze sollicitant krijgt te maken met deze bijzondere leidinggevende en teamleden, die nog jaren zijn collega’s zullen zijn, in een organisatie met een zeer speciale cultuur”. Stel juist dan van tevoren een formule/ beslismodel op.
  • Mocht de uitkomt van formule toch strijdig zijn met je eigen klinisch oordeel dan zijn er drie mogelijkheden, comply or explain:
    • Je volgt toch je formule
    • Je onderzoekt je formule, heb je over het hoofd gezien dat bijvoorbeeld bepaalde extreme scores van belang zijn: je past je formule aan en legt dat uit.
    • Je legt uit, in het rapport, waarom je iemand, ondanks zwaarwegende contra-indicaties, toch wel, of juist niet, aanbeveelt. Voorbeeld: het was vooraf geen eis maar iemand blijkt een relevante vreemde taal te beheersen of extreem intelligent te zijn. Dat is zo waardevol dat de organisatie wat mindere andere kwaliteiten graag voor lief neemt (en bereid en in staat is om de functie aan te passen en jij daarmee ook de formule waarmee de geschiktheid is bepaald kunt aanpassen).