De voorspellende validiteit van selectietechnieken: bedenkingen vanuit de ivoren toren.

Door Prof. Dr. Filip Lievens (Universiteit Gent)

De publicatie van de bevindingen van de Amerikaanse onderzoekers Schmidt en Hunter in verband met de validiteit van selectietechnieken deed nogal wat stof opwaaien in de HR-wereld. Daarbij werd telkens verwezen naar het artikel uit 1998 van Schmidt en Hunter in Psychological Bulletin. Wat duiding bij de bevindingen van Schmidt en Hunter lijkt me aangewezen. In eerste instantie vat ik de grote tendensen in hun bevindingen samen. Daarna sta ik langer stil bij de reacties op hun bevindingen (het artikel van UA-professor Hendrik Derycke en de reacties er op van een aantal HR-adviesbureaus op zijn bijdrage) zoals gepubliceerd op hrm.net en in HRMFocus.

A. De resultaten van Schmidt en Hunter (1998)

In Tabel 1 worden de resultaten van de meta-analyse van Schmidt en Hunter (1998) gepresenteerd. De tabel bevat validiteitcoëfficiënten. De voorspellende validiteit van een selectietechniek verwijst naar de vraag of de selectietechniek toelaat om voorspellingen te maken over toekomstig functiegedrag (het zogenaamde criterium). Dit wordt dan uitgedrukt in een correlatiecoëfficiënt tussen de score op de test en bijvoorbeeld de beoordeling een jaar nadien door de leidinggevende. Deze correlatiecoëfficiënt kan variëren van -1.0 (de predictie van iemands prestatie is volledig het tegengestelde als de latere prestatie op de werkvloer) tot 1.0 (perfecte predictie). Een correlatie van 0.0 betekent dat selectie op grond van toeval (loting bijvoorbeeld) even goede resultaten zou opleveren. Deze verduidelijking over wat voorspellende validiteit juist betekent is nodig want soms wordt er wel eens ten onrechte beweerd dat de voorspellende validiteit van een selectietechniek bewezen is. Zo zei iemand me onlangs nog dat de test gevalideerd was omdat de test geen verschil vertoonde tussen Walen enVlamingen. Het is duidelijk dat dit niets met voorspellende validiteit te maken heeft. Of er een verschil is tussen subgroepen Vlamingen versus Walen zegt ietsover de billijkheid ('fairness') van de test. Dit wil niet zeggen dat billijkheid geen belangrijk criterium is (dat is het zeker en vast) maar het heeft niets te maken met de validiteit van een test en dus evenmin met het artikel van Schmidt en Hunter (tenzij men natuurlijk een differentiële predictiebenadering hanteert om test bias te onderzoeken).
In Tabel 1 vallen een aantal trends op. Allereerst levert een relatief eenvoudige techniek als cognitieve vaardigheidstests een hoge validiteitcoëfficiënt op. Schmidt en Hunter spreken terecht van cognitieve vaardigheidstests en gebruiken niet het verouderde woord intelligentietest. Bovendien vermelden Schmidt enHunter dat de validiteit van deze cognitieve vaardigheidstests nog stijgt bij functies met een grotere graad van complexiteit (hogere functies).

Tabel 1. Overzicht van de voorspellende validiteit van selectietechnieken volgensSchmidt en Hunter (1998)
Selectietechniek Voorspellende validiteit
(met functieprestatie als algemeen criterium)
Cognitieve vaardigheidstests .51
Work samples (arbeidsproeven) .54
Integriteitsvragenlijsten .41
Persoonlijkheidsvragenlijsten
(Big Five Factor Consciëntieusheid)
.31
Gestructureerde interviews .51
Ongestructureerde interviews .38
Tests naar functiekennis .48
Proefperiode .44
Referenties .26
Jaren werkervaring .18
Biodatavragenlijsten .35
Assessment centers .37
Jaren opleiding .10
Belangstellingsvragenlijsten .10
Grafologie .02
Leeftijd -.01

Een tweede grote tendens in de resultaten van Schmidt en Hunter is dat er goede validiteitcoëfficiënten gevonden worden voor meer gestructureerde en systematische technieken zoals gestructureerde interviews (validiteit van .51). Bij gestructureerde interviews leidt de interviewer het interview (of delen ervan) door vooraf bepaalde vragen te stellen. Het meest bekende voorbeeldhiervan is het 'patterned behavior description' interview of het 'behavior description interview' (vrij vertaald in het Nederlands als 'gedragsgerichtinterview'). In dit interview wordt aan kandidaten gevraagd om per competentie een situatie uit het verleden naar voren te brengen. Dit antwoord wordt dan verder gestructureerd uitgewerkt via de S(ituatie) T(aak) A(ctie) (R)esultaattechniek. De goede voorspellende validiteit voor meer gestructureerde en systematische technieken steekt significant af tegen meer intuïtieve techniekenzoals referenties (validiteit van .26) of grafologie (validiteit van .02). Dus hoe meer systematisch en gestructureerd de methode, hoe beter het resultaat qua voorspelling. Ten derde worden goede validiteitcoëfficiënten verkregen voor technieken, die gebaseerd zijn op de sample benadering. In deze technieken plaatst men kandidaten in functierelevante situaties, die zeer nauw samenhangen met wat de kandidaten in hun eventueel latere functie dienen te doen. Als voorbeeld gelden hier work samples (validiteit van .54) en assessment center oefeningen (validiteitvan .37). Voorbeelden van dergelijke oefeningen zijn een postbakoefening, een fact-finding of een gesprekssimulatie. De conclusie is dat men er als selectioneur best dient voor te zorgen dat selectie een aantal proeven bevat, die een realistische afspiegeling zijn van de taken van de latere functie-uitoefenaar. Dus hoe meer functierelevant en competentierelevant de techniek is, hoe beter de voorspellende kracht.
Tenvierde doen de resultaten van Schmidt en Hunter ook uitspraken over de voorspellende validiteit van persoonlijkheidsfactoren. Zoals U wellicht weet, is er overvloedige wetenschappelijke evidentie dat de vele persoonlijkheidsfactoren, die gemeten worden in persoonlijkheidsvragenlijsten, in feite kunnen teruggebracht worden tot vijf grote factoren, de zogenaamde Big Five, namelijk Extraversie, Vriendelijkheid, Consciëntieusheid, Emotionele Stabiliteit en Openheid. Van de Big Five factoren toont de meta-analyse van Schmidt en Hunterdat vooral een vragenlijst, die consciëntieusheid (met onderliggende facetten als gewetensvolheid, ambitie, etc.) meet, het beste scoort, namelijk met eenvaliditeitcoëfficiënt van .31.

B. De reacties op Schmidten Hunter (1998)

Hieronder geef ik een overzicht van de belangrijkste reacties op de bevindingen van Schmidt en Hunter, die ik reeds door de jaren heen opving. Sommige hiervan waren logischerwijs ook terug te vinden in de bijdragen (tot het debat) van Quintessence Consulting, De Witte & Morel, DIP Consulting, SHL Belgium, Mercuri Urval en GITP zoals gepubliceerd in HRM Focus en op hrm.net.
 
1. 'Het artikel van Schmidt en Hunter (1998) is een wetenschappelijk artikel dat los staat van de praktijk.'
Het is inderdaad juist dat het artikel van Schmidt en Hunter een wetenschappelijk peer-reviewed artikel is. Dit betekent dat dit artikel voorafgaandelijk kritisch wordt beoordeeld door diverse experten (dit is niet het geval met het gros van de boeken die worden gepubliceerd). Deze onafhankelijke expertstoetsen bijvoorbeeld de geldigheid van de stellingen en de adequaatheid van de statistische analyses. Een dergelijk reviewproces is zo grondig dat het vaak voorkomt dat het artikel wordt afgewezen (in meer dan 80% van de gevallen) of dat diverse revisierondes noodzakelijk zijn (in de overige 20% van de gevallen). Schmidt en Hunter passeerden echter deze strenge wetenschappelijke toetsing, die eigen is aan tijdschriften zoals Psychological Bulletin. Wat niet klopt, is dat het artikel van Schmidt en Hunter los van de praktijk staat. Het artikel van Schmidt en Hunter is juist gebaseerd op de praktijk want ze analyseren allemaal gegevens die uit concrete selectiesituaties afkomstig zijn. Zij geven een samenvatting van alle meta-analyses, die de voorbije 85 jaar zijn uitgevoerd op grond van de validiteit van selectietechnieken. Hierdoor zijn sommige van hun resultaten gebaseerd op meer dan 30.000 kandidaten. Hun resultaten geven dan ook een gemiddelde waarde van de validiteit van een selectietechniek over vele instrumenten, functies, organisaties heen, een soort van grootste gemene deler dus. Omdat hun resultaten gebaseerd zijn op grote steekproeven, vormt hun artikel daarom het beste en meest recente overzicht van de voorspellende kracht van de meest courant gebruikte selectietechnieken.Kortom, stellen dat één lokale studie uitgevoerd in de 'praktijk' in Vlaanderende 'wetenschappelijke' resultaten van Schmidt en Hunter ondergraaft is onwerkelijk.
 
2. 'Door hun accent op cognitieve vaardigheidstests pleiten Schmidt en Hunter (1998) voor eenzijdige selectiebeoordelingen. Een hoogbegaafd persoon kan ongeschikt blijken voor een bepaalde functie vanwege ontoereikende sociale vaardigheden.'
Dit is duidelijk een misverstand. Toegegeven, Schmidt en Hunter pleiten voor een prominente rol van cognitieve vaardigheidstests in selectie. Schmidt en Hunter spreken trouwens terecht van cognitieve vaardigheidstests en gebruiken niet het verouderde woord intelligentietests. Uit de meeste reacties op hrm.net blijkt dat de consultancybureaus in Vlaanderen hiermee akkoord gaan. Ook Daniel Seligman, de redacteur van Fortune stelt bijvoorbeeld dat 'IQ van belang is voor alle banen, ook voor het vegen van de vloer als de programmeurs naar huis zijn.' Het probleem is dat sommigen dan plots denken dat Schmidt en Hunter ook poneren om alleen cognitieve vaardigheidstests te gebruiken. Dit is niet zo. Het artikel van Schmidt en Hunter bepaalt ook welke combinatie van technieken de beste voorspelling oplevert (zogenaamde incrementele validiteit). Hieruit valt glashelder te concluderen dat men de validiteit verkregen op grond van cognitieve vaardigheidstests nog kan verhogen indien men bijvoorbeeld een persoonlijkheidsvragenlijst toevoegt aan de selectieprocedure. Evenzo kan men de validiteit verkregen op grond van cognitieve vaardigheidstests nog verhogen door een gestructureerd interview toe te voegen. Hetzelfde geldt voor de combinatie cognitieve vaardigheidstests en work samples.
 
3. 'Het kan toch niet dat cognitieve vaardigheidstests betere voorspellers zijn voor hogere functies.'
De reactie op de bevinding van Schmitt en Hunter dat cognitieve vaardigheidstests betere voorspellers zijn voor hogere functies is er inderdaad meestal één van groot ongeloof en consternatie. Ik herinner me bijvoorbeeld nog levendig de reactie van een deelnemer aan een seminarie over psychodiagnostiek. Hij labelde deze zeer robuuste bevinding van Schmidt en Hunter als 'larie' en 'niet relevant voor de selectiepraktijk'. Toch is het een zeer robuuste bevinding dat de validiteit van cognitieve vaardigheidstests niet daalt maar juist stijgt bij hogere functies (zie ook Coward & Sackett, 1990). Recentelijk werd deze bevinding bijvoorbeeld nog maar eens bevestigd in een grootschaligemeta-analyse in Europa (Salgado, Anderson, Moscoso, Bertua, De Fruyt, &Rolland, 2003). Merk op dat dit opnieuw niet betekent dat enkel cognitieve vaardigheidstests moeten gebruikt worden bij hogere functies. Neen, deze robuuste bevindingen demonstreren dat naast andere predictoren cognitievevaardigheidstests noodzakelijk zijn bij de selectie voor hogere functies. Ik vraag me af of de goede voorspellende kracht van cognitieve vaardigheidstestsvoor hogere functies trouwens echt zo controversieel is? Een probleem is dat -als het woord 'cognitieve vaardigheidstest' valt - velen (kandidaten, HR-managers, consultants, academici) nog te dikwijls enkel aan een testcijferreeksen of analogieën denken. De reacties op deze klassieke tests zijn inderdaad uitermate negatief. Het is echter niet omdat mensen de tests niet leuk vinden dat de tests ook niet valide zijn. Het laatste decennium zijn er trouwens zogenaamde 'business related' cognitieve vaardigheidstests op de markt. De vragen van een cognitieve vaardigheidstest worden hierbij in een realistische businesscontext verpakt, die aanspreekt bij kandidaten voor hogere functies. Op deze manier combineren deze cognitieve vaardigheidstests dus hoge voorspellende validiteit en positieve reacties van kandidaten. Verder denk ik dat zelfs de meest rabiate tegenstanders van cognitieve vaardigheidstests moeten erkennen dat zij toch de cognitieve capaciteiten van kandidaten beoordelen als ze die kandidaten beoordelen in een assessmentcenter oefening op competenties zoals probleemanalyse, oordeelsvorming (problem-solving) of fact finding. Met andere woorden, ik denk dat zowel kandidaten als selectioneurs dikwijls problemen hebben met de concrete methode (een test) om intelligentie te meten omwille van een diversiteit van redenen, hoewel iedereen wel inziet dat intelligent gedrag op het werk in de ruimste zin van het woord wel aardig interessant is en dus best op de één of andere manier gemeten wordt in de selectieprocedure.
 
4. 'Schmidt en Hunter (1998) vergeten dat optimaal kiezen van een set van instrumenten een functie is van de te evalueren competenties (welke kennis, vaardigheden, attitudes).'
Deze reactie op Schmidt en Hunter vinden we ook terug in varianten als 'een' uitgebalanceerde selectiebenadering verdient de voorkeur' of 'de selectiebenadering dient gebaseerd te zijn op competentiemanagement'. Ik denk dat dit een terechte opmerking is. Bij Schmidt en Hunter fungeert de functieprestatie van de medewerker ('job performance') als algemeen criterium om de validiteit van selectietechnieken te berekenen. Volgens mij zijn er hiervoor twee redenen. Men kan ten eerste hogere validiteiten verkrijgen als men op grond van functie-analyse (competentie-analyse) werkt met meer verfijnde criteria. Hiermee bedoel ik dat niet de algemene functie prestatie van een medewerker als criterium fungeert maar dat specifieke aspecten in de functieprestatie (bijvoorbeeld het teamwork van de medewerker of zijn / haar creativiteit) het criterium vormen. Ik illustreer deze zogenaamde 'predictor-criterion matching' (Lievens, Buyse, & Sackett, in druk) met voorbeelden in verband met persoonlijkheidsfactoren. Zoals gezegd, concluderen Schmidt en Hunter dat Consciëntieusheid het beste scoort, namelijk met een validiteitscoëfficiënt van .31. Als men niet 'job performance', maar specifieke criteria hanteert, komen ook andere Big Five factoren in de picture. De Big Five factor 'Openheid' is bijvoorbeeld een goede voorspeller voor iemands creativiteit en aanpassingsvermogen (LePine, Colquitt, & Erez, 2000) en voor aanpassingsvermogen in internationale assignments (Lievens, Harris, Van Keer,& Bisqueret, 2004). De Big Five factor 'vriendelijkheid' is dan weer een goede voorspeller voor succes in customer service functies (Frei &McDaniel, 1998) en tot slot is de Big Five factor 'Extraversie' vooral een predictor voor prestaties in teams (Mount, Barrick, & Stewart, 1998). Een tweede reden werd reeds terecht aangehaald in een reactie van Landy op hrm.net. Recentelijk wordt job performance niet meer als unidimensioneel concept beschouwd. Er wordt een onderscheid gemaakt tussen taakprestaties ('taskperformance'; een cluster van gedragingen die nauw verband houden met de taak en rol van de werknemer) en contextuele prestaties ('contextual performance'; een cluster van eerder interpersoonlijke gedragingen die bijdragen tot het psychologische en sociale klimaat) (Borman, & Motowidlo, 1993; Rotundo & Sackett, 2002). Voorbeelden hiervan zijn een collega helpen, betrokken zijn bij de organisatie, etc. De resultaten van Schmidt en Hunter gelden vooralvoor taakprestaties. Het is evident dat de validiteit van selectieproceduresanders zou uitvallen indien niet 'task performance' maar 'contextual performance' als criterium fungeert.
 
5. 'Schmidt en Hunter (1998) vergeten dat selectie het vinden is van de juiste man / vrouw op de juiste plaats (i.e., een juiste 'fit' vinden).'
Ik ontken zeker niet dat selectie zoeken is naar een juiste fit tussen persoon en organisatie. Wel heb ik problemen met hoe die fit dan wordt geconceptualiseerd. Ik vind de uitspraak dat selectie 'het vinden is van de juiste man / vrouw op de juiste plaats' ambitieus en commercieel getint is. De cijfers bewijzen dat. Het valt op dat de hoogste validiteitcoëfficiënt .54 bedraagt. Dit betekent dat we 29.16% van de variantie in functieprestaties kunnen verklaren. Dit is éénderde. Toegegeven door een brede gamma selectietechnieken erbij te voegen kunnen wij .54 opvoeren tot ongeveer .70 of .75 (zoals Frank Landy in zijn reactie stelt), maar dan nog verklaren we maar 49% van de variantie. Hoewel er veel vooruitgang is geboekt op het domein van personeelsselectie over de jaren heen, blijft dus enige bescheidenheid op zijn plaats. Misschien moeten we selectie niet zozeer beschouwen als het vinden van de juiste man op de juisteplaats ('select in') maar eerder het zo veel mogelijk buiten houden van ongeschikte kandidaten ('select out').
 
6. 'Schmidt en Hunter concentreren zich op voorspellende validiteit. Dit is slechts één van de graadmeters om selectietechnieken te beoordelen.'
Deze opmerking is terecht. Voorspellende validiteit is een cruciale graadmeter. De utiliteit (het financiële rendement van een selectietechniek voor een organisatie in termen van het binnenhalen van personeel) van een selectietechniek immers een functie is van de voorspellende validiteit van dezet echniek. Toch is het niet de enige maatstaf. Zo is de billijkheid van de selectietechniek een andere graadmeter (Hough,Oswald, & Ployhart, 2001). Welke technieken behandelen bepaalde groepen meer billijk dan andere groepen? Het isimmers belangrijk om selectietechnieken te kiezen op basis van het feit of zij al dan niet unfair discrimineren of al dan niet een stuk subjectiviteit oproepen ten aanzien van bepaalde groepen. Oefeningen, tests, etc. moeten bijvoorbeeld geen onnodige eisen stellen op het vlak van taalkennis indien deze op zich niet relevant is. Zij dienen ook best niet gebaseerd te zijn op specifieke kennis indien deze cultuur- of geslachtsgebonden is. Deze kwestie is een heet hangijzer in de Verenigde Staten en wordt ook in Europa steeds belangrijker. Billijkheid is vooral van belang als men diversiteit wil garanderen. Opvallend is dat één van de meest valide technieken, cognitieve vaardigheidstests, hierop bijzonder slecht scoren omdat er bij cognitieve vaardigheidstests opvallende verschillen zijn tussen mannen en vrouwen en blanken en zwarten en autochtonen en allochtonen. Een andere maatstaf, die recentelijk nogal wat aandacht krijgt, is de aanvaardbaarheid van de selectietechniek zoals deze gepercipieerd wordt door belangrijke stakeholders in het selectieproces (kandidaten, personeelsleden, consultants, managers, etc.). Subjectieve percepties van kandidaten zijn belangrijk omdat onderzoek aantoont dat ze direct effect hebben op de motivatie van de kandidaten om zich in te zetten tijdens de selectie (Chan et al., 1998). Hierdoor beïnvloedt hun perceptie van de test ook hun testprestatie. Andere studies laten zien dat de percepties van de gebruikte selectietechnieken ook afstralen naar het imago en de attractiviteit van de onderneming. Zo bleek dat sommige sollicitanten een dusdanige negatieve ervaring hadden met de selectieprocedure dat ze zeiden geen producten van de onderneming meer te willen kopen (Macan et al., 1994). Kortom, voorspellende validiteit is een cruciale maatstaf. Het is echter niet de enige,die een rol speelt bij discussies over selectietechnieken. Organisaties kunnen er bewust voor opteren om evenveel waarde te hechten aan de diversiteit of de aanvaardbaarheid van de selectietechnieken als aan hun voorspellendevaliditeit. Het is ook belangrijk om de resultaten van Schmidt en Hunter in dit licht te bekijken.
 
7. 'Zijn de resultaten van Schmidt en Hunter eigenlijk wel bruikbaar in de praktijk ?'
Een probleem met de resultaten van Schmidt en Hunter is dat ze dikwijls verkeerd worden gebruikt. Ik geef twee voorbeelden. Zo kreeg ik van een consultant bijvoorbeeld een aantal jaar geleden de vraag om snel even de tabel uit Schmidt en Hunter door te faxen omdat hij / zij de tabel wou gebruiken om een klant dezelfde middag te overtuigen dat assessment center oefeningen toch wel goede selectietechnieken zijn. Een tweede voorbeeld is dat een offerte wel eens wordt gestoffeerd met dergelijk meta-analytisch materiaal van Schmidt en Hunter. Waarom is dit gebruik van de resultaten van Schmidt en Hunter ongepast ? De kernreden is dat de meta-analyse van Schmidt en Hunter een gemiddelde waarde geeft van de validiteit van een selectietechniek over vele instrumenten, functies, organisaties heen. Als Schmidt en Hunter concluderen dat een persoonlijkheidsvragenlijst, die onder andere consciëntieusheid meet, een validiteit behaalt van .31, dan betekent dit dus niet dat persoonlijkheidsvragenlijst X in organisatie Y en doelgroep Z dezelfde resultaten zal opleveren. Assessment center oefeningen zijn een ander voorbeeld. Volgens Schmidt en Hunter behalen deze een gemiddelde validiteit van .37. Als men assessment center oefeningen zeer gedegen ontwikkelt, kan deze waarde stijgen tot .60. Als men echter knoeit bij de ontwikkeling van assessment center oefeningen, dan kan men ook dalen tot .10. In één van de reacties op hrm.net kwam dit bijvoorbeeld terug toen werd gesteld dat eisen bij assessment center oefening onder andere de volgende zijn: een correct en goed gedefinieerd competentieprofiel en ervaren / goed opgeleideconsultants (zie ook Lievens, 2001). Dus, de resultaten van Schmidt en Hunter zijn probabilistisch en zijn niet deterministisch. Eenvoudiger gezegd: Ze geven aan dat er een goede kans bestaat dat de voorspellende validiteit van een selectietechniek een bepaalde waarde zal bereiken maar dit is niet zeker. Het is dus perfect mogelijk dat een specifiek instrument niet werkt in een specifieke situatie bij een specifieke doelgroep. Daarom is de tabel van Schmidt en Hunter eerder een maatstaf, een benchmark om eigen toepassingen van selectietechnieken mee te vergelijken. Een implicatie hiervan is dat men de tabel van Schmidt en Hunter enkel kan gebruiken om nadien na te gaan of het bedrijf (of consultancybureau in geval van outsourcing van selectie) goed werk heeft geleverd. Stel dat men bijvoorbeeld voor een gestructureerd interview een voorspellende validiteit van .21 verkrijgt, dan heeft het bedrijf (of consultancybureau) in kwestie zwak gepresteerd want de gemiddelde waarde (en dan spreken we nog maar van een gemiddelde waarde) voor gestructureerde interviews ligt hoger, namelijk .38.
 
8. 'Wij bewaken al de wetenschappelijke onderbouw van ons selectie-aanbod'.
Deze reactie kwam ook consistent terug als ik grasduinde doorheen de reacties op hrm.net. Zo stelden de consultancybureaus dat men 'de wetenschappelijke onderbouw van elk programma uit het selectie-aanbod bewaakt' of dat men 'bezorgdheid heeft om een zo groot mogelijke validiteit te garanderen bij het voorspellen van job-performance'. Ik deel deze bezorgdheid. Toch lijkt het me noodzakelijk om dit ook aan te tonen met concreet cijfermateriaal. Op één uitzondering na werden geen resultaten van studies naar de voorspellende validiteit gerapporteerd. Het is jammer dat er in België zeer weinig validiteitstudies worden uitgevoerd. Het zou een goed idee zijn om in elke offerte een evaluatie in termen van voorspellende validiteit te voorzien en het specifieke resultaat te 'benchmarken' aan de gemiddelde waarden van Schmidt en Hunter. Hoe kan men anders nagaan of de voorgestelde selectieprocedure inderdaad werkte en voorspellend was voor het later functioneren van personeelsleden? In deVerenigde Staten kan elke sollicitant een klacht indienen als hij / zij vermoedtdat de selectieprocedure niet valide was. Het is dan aan de organisatie (of consultancybureau in geval van outsourcing van selectie) om met een gedegen validiteitstudie voor de dag te komen om het tegendeel te bewijzen. Zeggen en denken dat een selectietechniek valide is, is nog een ander paar mouwen dan een validiteitstudie uitvoeren, die dit ook empirisch bewijst. Eisen aan een studie naar de voorspellende validiteit zijn onder andere dat (1) de steekproef voldoende groot is (meer dan 50 personen), (2) er op voorhand duidelijke verwachtingen zijn over welke tests welke criteria gaan voorspellen en (3) er geen sprake is van criteriumcontaminatie (i.e., de scores op de selectietechniek en het criterium zijn onafhankelijk van elkaar verzameld, hetgeen betekent dat de scores van personen op een selectietechniek worden gecorreleerd met hun beoordelingen zes maanden later zoals gegeven door een leidinggevende, die niet op de hoogte was van deze scores). Een voorstel is dat consultancybureaus in België de tests, die ze zelf ontwikkeld hebben, opsturen naar de Commissie Testaangelegenheden Nederland (Cotan). Deze commissie van het NIP heeft als opdracht het bevorderen van de kwaliteit van tests en testgebruik in het Nederlandstalig taalgebied. Ingestuurde tests en de bijhorende studies worden op een reeks maatstaven (waaronder voorspellende validiteit) kritisch beoordeeld door verschillende experts in de psychometrie. Het interessante van de COTAN is dat deze commissie onafhankelijk is. Op deze manier kunnen consultancybureaus en ondernemingen in België en Nederland met 'harde' cijfers bewijzen dat de door hun gebruikte tests inderdaad valide zijn. Zoals dit in het buitenland soms gebeurt, kunnen de gedetailleerde resultaten van deze validiteitstudies dan best geplaatst worden op de website van het consultancybureau in kwestie.
 
Prof. Dr. Filip Lievens behoort tot de Vakgroep Personeelsbeleid en Arbeids- en Organisatiepsychologie aan de Universiteit Gent waar hij verantwoordelijk is voor de vakken in verband met HRM. Hij heeft reeds herhaaldelijk over selectie en rekrutering gepubliceerd in buitenlandse toptijdschriften zoals Journal of Applied Psychology en Personnel Psychology.

Referenties

- Borman, W.C., & Motowidlo, S.J.(1993). Expanding the criterion domain to include elements of contextual performance. In N. Schmitt & W.C. Borman (Eds.), personnel Selection In Organizations (pp. 71-98). San Francisco,CA: Jossey-Bass.
- Chan, D., Schmitt, N., Sacco, J. , & DeShon, R. P. (1998). Understanding pretest and posttest reactions to cognitive ability and personality tests. Journal of Applied Psychology, 83, 471-485.
- Coward, W. M., & Sackett, P. R. (1990). Linearity of ability-performance relationships: A reconfirmation. Journal of Applied Psychology, 75, 297'“300.
- Frei, R.L., & Mc Daniel, M.A.(1998). Validity of customer service measures in personnel selection: A review of criterion and construct evidence. Human Performance, 11, 1'“27.
- Hough, L.M., Oswald, F.L., & Ployhart, R.E. (2001) Determinants, detection and amelioration of adverse impact in personnel selection procedures: Issues, evidence, and lessons learned. International Journal of Selection & Assessment, 9, 152 '“ 194.
- Le Pine, J.A., Colquitt, J.A., & Erez, A. (2000). Adaptability to changing task contexts: Effects of general cognitive ability, Conscientiousness, and Openness to Experience. Personnel Psychology, 53, 563-593.
- Lievens, F. (2001). Assessor trainingstrategies and their effects on accuracy, inter-rater reliability, and discriminant validity. Journal of Applied Psychology, 86, 255-264
- Lievens, F., Harris, M.M., Van Keer,E., & Bisqueret, C. (2003). Predicting cross-cultural training performance: The validity of personality, cognitive ability, and dimensions measured by an assessment center and a behavior description interview. Journal of Applied Psychology, 88, 476-489.
- Lievens, F., Buyse, T., & Sackett, P.R. (in druk). The operational validity of a video-based situational judgment test for medical college admissions: Illustrating the importance of matching predictor and criterion construct domains. Journal of Applied Psychology.
- Macan, T.H., Avedon, M.J., Paese, M.,& Smith, D.E. (1994). The effects of applicants' reactions to cognitive ability tests and an assessment center. Personnel Psychology, 47, 715-738.
- Mount, M.K., Barrick, M.R., & Stewart, G.L. (1998). Five-Factor Model of personality and performance in jobs involving interpersonal interactions. Human Performance, 11, 145-165.
- Rotundo, M., & Sackett, P.R.(2002). The relative importance of task, citizenship, and counterproductive performance to global ratings of job performance: A policy-capturing approach. Journal of Applied Psychology, 87,66-80.
- Salgado, J.F., Anderson, N., Moscoso, S., Bertua, C., De Fruyt, F. & Rolland, J.P. (2003). A meta-analytic study of general mental ability validity for different occupations in the European Community. Journal of Applied Psychology, 88, 1068-1081.
- Schmidt, F.L., & Hunter, J.E. (1998). The validity and utility of selection methods in personnelpsychology: Practical and theoretical implications of 85 years of researchfindings. Psychological Bulletin, 124,262-274.

Dit artikel verscheen oorspronkelijk op hrm.net.