Meta-analyse over de psychometrische eigenschappen van enkele veelgebruikte projectieve technieken. (Lic. Peeters, Tim; Cayenberghs, Karen; Debock, Karel; Schouten, Ben en Wilderjans, Tom)

In de psychodiagnostiek wordt gebruik gemaakt van twee soorten technieken. Naast vragenlijsten worden projectieve technieken veelvuldig toegepast om een diagnostisch oordeel te maken. In deze paper gaan we dieper in op projectieve technieken, hun eigenschappen, hun pluspunten en tekortkomingen.

Projectieve technieken maken een aparte groep uit in het psychodiagnostisch arsenaal. Ze kunnen negatief gedefinieerd worden door ze te contrasteren met de overige diagnostische technieken, b.v. de vragenlijsten (De Boeck, 1999). Lilienfeld, Wood en Garb (2000) daarentegen geven een beschrijvende definitie wanneer zij projectieve technieken omschrijven als een geheel van ambigue stimuli waarbij gevraagd wordt om deze stimulus te verduidelijken (b.v. het vertellen van een verhaal, antwoorden geven op open vragen…).

De projectieve hypothese vormt de bestaansreden van de projectieve technieken. Volgens deze hypothese projecteren mensen aspecten van hun persoonlijkheid in hun ‘(test-) gedrag’ wanneer hen gevraagd wordt ongestructureerde stimuli te verduidelijken / interpreteren. Door de gedragingen die gesteld worden te analyseren, kunnen allerlei inferenties over iemands persoonlijkheid gemaakt worden. De term ‘projectie’ is afkomstig van S. Freud (1911) waarmee hij een defensiemechanisme omschreef waardoor patiënten hun negatieve persoonlijkheidseigenschappen op een onbewuste wijze in andere personen konden plaatsten. Binnen de context van de projectieve technieken heeft de term ‘projectie’ een veel ruimere betekenis gekregen. Projectie duidt hier niet meer op het defensiemechanisme maar op een algemeen onderliggend mechanisme in iedere mens.

De projectieve methode kan dus omschreven worden als een psychodiagnostische methode, waarbij de onderzochte in het vervullen van de opdracht een grote mate van vrijheid krijgt, zodat bepaalde affectieve en conatieve aspecten van zijn persoonlijkheid op indirecte wijze uit zijn of haar gedrag en resultaten blijken (de Zeeuw, 1995). De projectieve techniek is dan als het ware een scherm waarop de mensen hun ‘gevoelens’ kunnen projecteren waardoor de onderzoeker inzicht kan verschaffen in de ‘de dark side’ van de persoonlijkheid. De onderliggende assumptie luidt dat er zo een globale beoordeling inzake de onderliggende persoonlijkheid van de onderzochte gemaakt wordt. Een betere term dan ‘projectietechnieken’ is ‘expressietechnieken (De Zeeuw, 1995).

De verschillende projectieve technieken hebben vier gemeenschappelijke kenmerken.Ten eerste zijn de aangeboden stimuli zijn vaag en ambigu. Daarnaast is de respons van de onderzochte op de stimuli is ongestructureerd. Vervolgens is er ook sprake van vermomming van de doelstellingen van de techniek. De geteste persoon weet niet wat er gemeten wordt, waardoor er geen sociaal wenselijk gedrag optreedt. Daarom wordt het geheel van projectieve technieken ook wel een indirecte methode genoemd, in tegenstelling tot de vragenlijsten die eerder op een directe manier pijlen naar de angsten, wensen en verlangens van de ondervraagde. Tenslotte geven Lilienfeld et al. (2000) aan dat zo bewuste verdedigingsmechanismen bij het antwoorden omzeild worden.

Alle projectieve technieken baseren zich op een interpretatief proces om betekenis te geven aan het geobserveerde gedrag. Men kan zich hier dan ook afvragen of er in het scoren niet evenveel projectie aanwezig is als in de gegeven antwoorden van de proefpersonen (tegenoverdracht).

Hiermee kan de link gelegd worden met het onderscheid dat er gemaakt wordt tussen een kwantitatieve en een kwalitatieve benadering van de verschillende technieken Bij een kwantitatieve benadering probeert men de bekomen antwoorden op het materiaal op een formeel-systematische en kwantificerende manier te omschrijven en vervolgens te interpreteren. Bij de kwalitatieve benadering poogt men op een systematische wijze een inhoudelijke interpretatie te maken (Groth-Marnat, 1999; Laroche & Corveleyn, 1986).

In navolging van Lindzey (1959) zullen de we een onderscheid maken tussen verschillende soorten van projectieve technieken, nl. (1) associatie b.v. de Rorschach-vlekkentest, (2) de constructie b.v. Draw a Person van Machover, (3) de aanvulling b.v. de Zinaanvullingstest van Rotter, (4) de expressie b.v TAT en tenslotte (5) de rangschikking en selectie b.v. Color Test van Luscher. Deze classificatie is gebaseerd op de verschillende typen van antwoorden.

In deze paper zullen we ons focussen op de belangrijkste projectieve technieken: (a) de Rorschach-vlekkentest, (b) de TAT en (c) de Human Figure Drawings. Er zijn twee redenen waarom we ons beperken tot deze drie technieken. Het zijn de meest gebruikte projectieve technieken. Een onderzoek naar 21 projectieve methoden, gemeten aan de aantallen researchpublicaties in tien belangrijke Amerikaanse tijdschriften (Crenshaw, 1968) wijst uit dat de Rorschach-vlekkentest en de TAT de meest beschreven methoden uit de projectieve technieken waren. Daarnaast is er in de huidige literatuur het meest te vinden over deze drie methoden wat betreft methodologische aspecten. We focussen ons op de methologische aspecten van de projectieve technieken. We beginnen met een korte omschrijving van de verschillende projectieve technieken en geven daarbij hun psychometrische eigenschappen. Tenslotte geven we een samenvatting over de wetenschappelijke status van de technieken en enkele opmerkingen

We gaan eventjes kort ingaan op de methodologische criteria die gehanteerd worden bij het nagaan van de wetenschappelijke status van projectieve technieken.

Eén van de belangrijkste criteria is dat van de validiteit, hetgeen verband houdt met de vraag ‘Wat onderzoekt deze projectieve techniek?’ Indien we niet een redelijk juist antwoord op deze vraag kunnen geven, zal de projectieve methode waardeloos zijn voor de clinici die streven om iets zinnigs over mensen te weten te komen. De validiteit is het allerbelangrijkste punt bij het opstellen en toepassen van alle soorten tests. Deze geldigheid van een test wordt uitgedrukt in een validiteitcoëfficiënt.

Eerst en vooral heeft men constructvaliditeit of begripsvaliditeit, hetgeen een analyse is van attributen die met het testresultaat in verband staan, of zij nu behoren tot het bedoelde of het niet – bedoelde. Dit onderzoek loopt via de correlaties die testvariabele heeft met andere variabelen. Men bekomt een netwerk van correlaties. Er zijn twee strategieën: (1) een nomologisch netwerk (Cronbach & Meehl, 1955) en (2) een multitrek – multimehode matrix (Campbell & Fiske, 1959).

Bij bespreking van testen kan men soms ook vinden dat nieuwe testen worden gevalideerd tegen de resultaten van soortgelijke reeds bestaande testen. Dit noemt men de congruente validiteit. Ook wordt er gezocht naar hun ongelijksoortigheid, dit is dan de concurrente validiteit.

Voorts spreekt men ook van incrementele validiteit, dit heeft te maken met het toenemen van de validiteit (increment is aangroei of toename). Voegt de test nog extra toe?

Bij inhoudsvaliditeit wordt de mate nagegaan waarin testinhoud of testgedrag representatief is voor een breed domein.

Predictieve validiteit of voorspellende validiteit wordt nagegaan wanneer een test in hoofdzaak gebruikt wordt om te kunnen voorspellen.

De uiterlijke validiteit (face validity) is eigenlijk louter een gevoelskwestie. Testen worden gelanceerd die voor het gevoel van de ontwerper een bepaald facet onderzochten, omdat zij daar uiterlijk overeenkomsten mee hadden, zonder dat de validiteit echt nader wordt onderzocht.

Op de tweede plaats in orde van belangrijkheid komt de betrouwbaarheid. We kunnen hierbij opnieuw ingaan van een vraagstelling, namelijk ‘Hoe nauwkeurig of hoe consequent meet een projectieve techniek datgene wat zij meet?’ Wanneer iemand een test aflegt, kunnen immers tal van omstandigheden zijn score beïnvloeden, die geheel los staan van de vaardigheid of de persoonlijke eigenschap waarvoor de test is ontworpen.

Er zijn net zoals bij validiteit verschillende soorten van betrouwbaarheid te onderscheiden. Dé betrouwbaarheid op zich bestaat niet, er zijn verschillende types van betrouwbaarheid. De betrouwbaarheid wordt uitgedrukt in een correlatiecoëfficiënt.

Zo heeft men interbeoordelaarsbetrouwbaarheid (interscorerbetrouwbaarheid), dit is de mate van objectiviteit bij scoring van de test en de onderling gelijke wijze waarop testafnemers hun taak verrichten.Vooral bij projectieve testen en observatietesten is deze coëfficiënt van belang. Hij moet tenminste het niveau van r=.90 hebben.

Men kan ook de betrouwbaarheid opvatten als de validiteit van de test t.o.v zichzelf. Dit is de stabiliteit van de test of de test – hertest betrouwbaarheid.

Zeer frequent als schatting van de testbetrouwbaarheid is het gebruik van de coëfficiënt van interne consistentie. Er zijn twee maten: de Kuder – Richardson voor nominaal niveau en de Cronbach alpha voor intervalniveau. Deze interne consistentie geeft aan in hoeverre de items homogeen of consistent zijn. Dit wordt niet uitgedrukt in een correlatiecoëfficiënt.

Voor de praktijk van het testonderzoek is het ook vereist dat een test voorzien moet zijn van normen. De individuele testprestaties worden beoordeeld in relatie tot de resultaten van andere personen van de populatie, waartoe de onderzochte moet behoren. De normen moeten zodanig zijn dat een ondubbelzinnige kwantificering of kwalificering van het testresultaat mogelijk is. Dit heeft tot doel om de subjectiviteit van de onderzoeker zoveel mogelijk te reduceren.

Het is in het algemeen een langdurige en moeilijke opgave om de wetenschappelijke status na te gaan van testen.

De Rorschach Inkblot Test (1921), die volgens de indeling van Lindsey tot de associatietechnieken behoort (Lilienfeld et al., 2000), had oorspronkelijk de bedoeling om de fantasie van kinderen te onderzoeken. Het is pas door toedoen van S. Hens, die met een eenvoudige vlekkentest psychiatrische patiënten onderzocht, dat Rorschach zijn Inkblot Test ontwikkeld heeft tot een algemene persoonlijkheidstest (de Zeeuw, 1995).

De Rorschach Inkblot Test maakt gebruik van 10 kartonnen kaarten waarop tegen een witte achtergrond een inktvlek, die ongeveer symmetrisch is, afgedrukt staat. 5 vlekken zijn enkel in zwart-wit weergegeven, terwijl de andere 5 vlekken ook kleur bevatten. De 10 kaarten worden na elkaar aangeboden en bij elke kaart wordt aan de onderzochte gevraagd ‘wat dit zou kunnen zijn’.[1] De antwoorden van de onderzochte worden nauwkeurig genoteerd (d.i. het protocol).[2] Vervolgens worden de antwoorden geformaliseerd in categorieën en gescoord met speciale lettersymbolen (d.i. signeren). Tenslotte volgt er een kwantificering (de Zeeuw, 1995).

Alhoewel de vereiste leeftijd 5 jaar bedraagt, wordt in de klinische praktijk de test nauwelijks gebruikt voor kinderen jonger dan 14 jaar. Lilienfeld et al. (2000) vermelden dat de afnameprocedure ongeveer 45 minuten in beslag neemt en dat ongeveer 2 uur besteed wordt aan het scoren en interpreteren van de antwoorden. De afnameprocedure kan meer of minder tijd in beslag nemen naargelang de toestand van de onderzochte en zijn neiging om veel of weinig antwoorden te geven. Ook de aanwezigheid van een bepaalde soort pathologie kan de afnametijd beïnvloeden. De afname gebeurt individueel tussen de patiënt en de afnameleider.

Verschillende benaderingen tegenover de ‘Rorschach technique’ (Aronow, Reznikow & Moreland, 1995) kunnen beschreven worden. Opvallend hierbij is het gebruik van het woord ‘Technique’ in plaats van ‘Test’ (zie verder). Aronow et al. (1995) beschrijven drie benaderingen die ontstaan door een combinatie van twee assen nl. de ideografisch-nomothetisch as en de perceptueel-inhoud as. De drie benaderingen zijn[3]: de perceptueel-nomothetische, de inhoud-nomothetische en de inhoud-ideografische. De nomothetische benadering heeft als doel het ontdekken van algemeen geldige wetten. De ideografische benadering daarentegen legt de nadruk op een grondige studie van de (relatieve) unieke kwaliteiten van het individu. Bij de perceptueel-inhoud as legt de perceptueel benadering de nadruk op hoe een subject de verschillende aspecten zoals locatie, vorm en determinanten waarneemt. De inhoud benadering neemt wat het subject waarneemt als het cruciale element.

De perceptueel-nomothetische benadering heeft zijn grondvesten in de visie van Hermann Rorschach. Aronow et al. (1995) citeren zijn werk Psychiadiagnostik (1912, 1942): “In scoring the answers given by subjects, the content is considered last. It is more important to study the function of perception and apperception”. De jaren na zijn publicatie neemt Rorschach echter een meer inhoudsgericht en projectief psycho-analytisch standpunt in. De scholen in Amerika daarentegen bleven nog lang trouw aan de oorspronkelijk perceptueel-nomothetische benadering.

De inhoud-nomothetische benadering beschrijven Aronow et al. (1995) in het kader van een enorme groei in het gamma van de inhoudsschalen voor scoring van de Rorschach rond 1940. Dit leidde tot een ‘boom’ van onderzoek op dit gebied in de jaren zestig en zeventig. Aronow et al. (1995) verwijzen hierbij naar hun eigen review (Aronow & Reznikoff, 1976). Deze verwijzing wordt hen niet in dank afgenomen door Ritzler (1995) omdat in de review geconcludeerd wordt dat scores op basis van inhoudsschalen krachtiger zijn dan perceptuele scores.

De inhoud-ideografische benadering tenslotte legt de focus op de inhoud van de antwoorden en bijkomende verbale informatie. Dit wordt dan beschouwd als toegangspoort tot de unieke wereld van het individu en in het bijzonder tot het zelfconcept van dat individu.

Aronow et al. (1995) nemen naast de beschrijving ervan, tegenover deze verschillende benaderingen een duidelijk standpunt in. De inhoud-ideografische benadering is volgens hen het meest consistent aan de visie van de Rorschach Inkblot Test als een projectieve techniek. Ze vinden dat deze benadering het meest tegemoet komt aan de ‘strenghts’ van de Rorschach. Daarom verkiezen ze in tegenstelling tot H. Rorschach zelf, de term ‘Technique’ in plaats van ‘Test’. In het licht van conceptuele helderheid reserveren ze de term ‘Test’ voor instrumenten die nomothetisch van aard zijn, terwijl ‘Technique’ volgens hen gebruikt wordt bij ideografisch georiënteerde instrumenten zoals de Rorschach.

Dit uitdrukkelijke standpunt werd echter onder vuur genomen. Ritzler (1995) schrijft dat deze inhoudsgerichte benadering onvoldoende de nadruk legt op het belang van informatie die verkregen wordt via een empirisch gefundeerde en gekwantificeerde methode van interpretatie van de Rorschach. Ook het argument dat de Rorschach in de eerste plaats een projectieve techniek is, wordt door Ritzler (1995) weerlegd.

Na Rorschach hebben anderen gepoogd een eigen scoringssysteem uit te werken.[4] Volgens Lilienfeld et al. (2000) echter werd de Rorschach Inkblot Test (1921) tijdens het midden van de vorige eeuw geregeld bestookt met wetenschappelijke kritieken. Deze kritieken verweten de Rorschach Inkblot Test (1921) een gebrek aan gestandaardiseerde afnameprocedures. Tevens beweerden deze kritieken dat de normen van de Rorschach Inkblot Test (1921) niet adequaat waren en dat enige sluitende evidentie voor de betrouwbaarheid en validiteit totaal ontbrak. Het is binnen deze context dat J.E. Exner zijn The Rorschach: A Comprehensive System (1974) ontwikkeld heeft. Exner had met zijn ‘Comprehensive System’ de bedoeling om de Rorschach Inkblot Test (1921) van een stevige wetenschappelijke en psychometrische basis te voorzien.

Belangrijk hierbij is de positie die Exner innam tegenover de Rorschach Inkblot Test. In tegenstelling tot Hermann Rorschach, bleef Exner trouw aan de aanvankelijke perceptueel-nomothetische benadering. Exner (vermeld in Aronow et al., 1995) beoordeelt de Rorschach Inkblot Test als ‘niet geschikt voor het verzamelen van projectieve data’. Volgens hem kan de Rorschach Inkblot Test bezwaarlijk een projectief instrument genoemd worden. Een logisch scenario bij deze houding, zou een poging zijn om het instrument om te vormen tot een zo objectief mogelijke test. Dit is juist wat ‘The Comprehensive System’ heeft proberen te verwezenlijken, aldus Aronow et al. (1995).

Om een goed beeld te krijgen van de wetenschappelijke status van de Rorschach Inkblot Test (1921) lijkt het ons dus aangewezen om de wetenschappelijke en psychometrische kwaliteiten van dit meest verbreide scoringssysteem te onderzoeken, nl. Exners Comprehensive System.

Volgens Lilienfeld et al. (2000) heeft Exners Comprehensive System de Rorschach voorzien van gedetailleerde (gestandaardiseerde) regels voor afname en scoring. Tevens heeft Exner ervoor gezorgd dat normeringstabellen voor kinderen en volwassenen voorhanden zijn. Tenslotte bestaat Exners bijdrage in het rapporteren van positieve resultaten van verschillende betrouwbaarheids- en validiteitsstudies.

Ondanks deze inspanningen van Exner blijven verschillende auteurs overtuigd van de lage psychometrische kwaliteiten van de Rorschach Inkblot Test (1921). In wat volgt bekijken en analyseren we de discussie tussen de voor- en tegenstanders van Exners Comprehensive System. Hierbij bespreken we de adequaatheid van de normen, de betrouwbaarheid en de validiteit. Tevens worden enkele hete hangijzers uit het onderzoek grondig besproken.

Opdat een testscore op een wetenschappelijke manier zou kunnen geïnterpreteerd worden, moet deze vergeleken worden met de scores van een referentiegroep. Bij de traditionele Rorschach Inkblot Test (1921) ontbreken dergelijke normeringsgegevens totaal. Exner heeft de Rorschach Inkblot Test (1921) voorzien van normeringsgegevens op basis van zijn eigen scoringssysteem voor Amerikaanse volwassenen en kinderen die geen deel uitmaken van de klinische patiëntenpopulatie. Verder heeft Exner ook statistische tabellen berekend voor verschillende klinische referentiegroepen, b.v. patiënten met schizofrenie.[5]

In de literatuur echter zijn deze normeringsgegevens van Exner onderwerp geweest van hevige kritiek. Op de eerste plaats opperen sommige auteurs het verwijt dat deze normeringsgegevens achterhaald zijn en dat ze gebaseerd zijn op een eerder kleine steekproef in vergelijking met gevestigde psychologische instrumenten zoals b.v. de WAIS en de MMPI-2. Een fundamenteler verwijt bestaat erin dat onderzoek aangewezen heeft dat de normeringsgegevens van Exner niet representatief zijn voor de Amerikaanse bevolking en dat ze de neiging tot overpathologisering vertonen, d.w.z. verschillende volwassenen die als normaal gepercipieerd worden, zijn buitengewoon pathologisch wanneer ze vergeleken worden met de normeringsgegevens van Exner.[6] In de literatuur omtrent de Rorschach Inkblot Test (1921) wordt hiervoor geen plausibele verklaring gegeven (Lilienfeld et al., 2000).

In de literatuur wordt ook melding gemaakt van het probleem van de culturele generaliseerbaarheid van Exners normeringsgegevens. Alhoewel voorstanders van de Rorschach Inkblot Test (1921) beweren dat deze test geschikt is voor het onderzoeken van Amerikaanse minderheden en niet-Amerikanen, kan er in de literatuur nauwelijks onderzoeksevidentie voor deze hypothese teruggevonden worden. Onderzoeksevidentie daarentegen die tegen de hypothese ingaat is massaal aanwezig. Tevens bestaat er zo goed als geen onderzoek naar de differentiële validiteit van Rorschach indexes over verschillende raciale en culturele groepen (Lilienfeld et al., 2000)

Bij de studie van de betrouwbaarheid van Exners Comprehensive System maken we een onderscheid tussen interscorerbetrouwbaarheid (interrater reliability) en test-hertest-betrouwbaarheid. Onderzoek naar de homogeniteit of interne consistentie wordt bij de Rorschach Inkblot Test niet uitgevoerd (de Zeeuw, 1995).

Een voorwaarde om op een wetenschappelijk verantwoorde manier gebruik te maken van de Rorschach Inkblot Test bestaat erin dat verschillende codeerders tot dezelfde coderingen en conclusies moeten komen bij het signeren van eenzelfde protocol.

Lilienfeld et al. (2000) vermelden onderzoeksliteratuur waarin beweerd wordt dat de interscorerbetrouwbaarheid van de variabelen van het Comprehensive System uniform boven de 0.85 gelegen is. Deze gegevens worden ondersteund door verschillende tabellen die terug te vinden zijn in Exners boek uit 1993[7] waarin de interscorerbetrouwbaarheid berekend wordt in de vorm van percentage van overeenkomst (Wood, Nezworski & Stejskal, 1996a). Volgens de Zeeuw (1995) is Exner in zijn boek erg nauwgezet in het geven van gedetailleerde aanwijzingen voor de scoringen en lange lijsten met scoringsvoorbeelden. De auteur besluit dat mede hierdoor de interscorerbetrouwbaarheidsindices hoog zijn (0.90 en hoger voor de diverse variabelen). De auteur voegt er wel aan toe dat dit enkel geldt wanneer de Rorschach Inkblot Test (1921) afgenomen wordt door zeer geoefende diagnosten. De enorme complexiteit van Exners scoringssysteem wordt hier ter verantwoording ingeroepen.

Volgens Lilienfeld et al. (2000) echter bestaan er verschillende recente studies die aantonen dat slechts de helft van de variabelen van het Comprehensive System een interscorerbetrouwbaarheid, berekend d.m.v. kappa-coëfficiënten of intra-klasse-correlaties (zie later), bezitten van 0.85 of hoger. Tevens tonen deze studies aan dat de interscorerbetrouwbaarheidsindices van verschillende vaak gebruikte CS-variabelen, v.b. SCZI (indicator voor schizofrenie), Adjusted D (indicator voor zelfcontrole onder stress) en X-% (indicator voor perceptuele en mentale vervorming), eerder laag is.

Wood, Nezworski en Stejskal (1996a) hebben enkele fundamentele kritieken ten aanzien van Exners methodologie voor het berekenen van de interscorerbetrouwbaarheidsindices van particuliere CS-variabelen.

Als eerste kritiek opperen zij dat verschillende auteurs reeds aangetoond hebben dat het percentage overeenkomst in sommige gevallen een inadequate en misleidende maat is voor interscorerbetrouwbaarheid. Deze betrouwbaarheidsmaat maakt immers geen correctie voor overeenkomst bij toeval, wat soms kan leiden tot een overschatting van de ware interscorerbetrouwbaarheid. Het kan m.a.w. in sommige gevallen, b.v. bij een extreme basiskans van voorkomen van een variabele, voorkomen dat beoordelaars een vrij hoog percentage van overeenkomst bereiken, alhoewel ze een protocol totaal op toeval gecodeerd hebben.[8] Wood, Nezworski en Stejskal (1996a) raden dan ook aan om meer geschikte statistieken te gebruiken, zoals b.v. kappa-coëfficiënten, phi, Spearman’s rho of Pearson’s r, bij het berekenen van interscorerbetrouwbaarheidsindices.

De reacties op deze stelling gaan in drie richtingen. Een eerste reactie komt van Exner (1996) die stelt dat het probleem van het op toeval correct, d.w.z. de 2 beoordelaars onderkennen in een antwoord eenzelfde variabele, coderen enorm gereduceerd wordt door het feit dat ieder antwoord altijd gecodeerd wordt op tenminste vijf categorieën, dat iedere categorie uit verschillende variabelen bestaat en dat verschillende variabelen binnen één categorie gecodeerd kunnen worden voor een antwoord.

Een tweede reactie komt van Meyer (1997a) die erkent dat het percentage overeenstemming in sommige gevallen een inadequate maat voor interscorerbetrouwbaarheid is omdat deze maat de mate van geobserveerde overeenkomst niet corrigeert voor de mate van overeenkomst die puur op toeval kan verwacht worden. Volgens Gronnerod (1999) vertoont het percentage overeenkomst de neiging om, onafhankelijk van het werkelijke niveau van overeenkomst, te stijgen wanneer de basiskans van voorkomen daalt. Meyer (1997a) is het echter niet eens met de definitie van overeenkomst op toeval die Wood et al. (1996a) huldigen. Deze definitie is afgeleid van de kansdefinitie die gebruik wordt bij het berekenen van kappa-coëfficiënten, nl. de mate van overeenkomst die geobserveerd zou worden wanneer twee codeerders op toeval een reeks antwoorden zouden coderen voor een reeks variabelen waarvan men de basiskans op voorkomen kent. Het gebruik van kappa-coëfficiënten wordt echter door Meyer (1997a) op tweevoudige wijze bekritiseerd. Ten eerste stelt de auteur dat de codeerders meestal de basiskans van voorkomen van een variabele niet kennen. Wanneer twee codeerders nu onafhankelijk van elkaar tot het besluit komen dat een bepaalde variabele een extreem hoge of lage basiskans van voorkomen heeft dan wordt hun hoge mate van overeenkomst door de kappa-coëfficiënt als bijna volledig toevallig geïnterpreteerd. De kappa-coëfficiënt m.a.w. straft de codeerders door gebruik te maken van de extreme basiskans van voorkomen die zij onafhankelijk van elkaar zijn bekomen bij het coderen. Ten tweede haalt Meyer (1997a) het feit aan dat wanneer de basiskans van voorkomen zich verwijdert van 0.50, d.i. het punt van maximale variantie, eenzelfde kleine graad van niet-overeenkomst tussen codeerders de kappa-coëfficiënt sterker doet dalen. Wanneer er m.a.w. met een extreme basiskans van voorkomen gewerkt wordt, kan de kappa-coëfficiënt nooit een hoge interscorerbetrouwbaarheid aangeven. Wood, Nezworski en Stejskal (1997) verdedigen zich tegen Meyers aantekeningen door te wijzen op het feit dat er in de statistische literatuur een universele consensus bestaat dat het percentage overeenkomst geen correctie voor overeenkomst op toeval bevat, waardoor deze maat als index voor betrouwbaarheid inferieur is aan de kappa-coëfficiënt. Meyer (1997b) repliceert hierop door te stellen dat in sommige gevallen interscorerbetrouwbaarheidsschattingen op basis van de kappa-coëfficiënt inadequaat zijn. Volgens Gronnerod (1999) tenslotte is het belangrijk dat men bij de keuze van de maat voor het schatten van de interscorerbetrouwbaarheid rekening houdt met het type van data waarvan men de interscorerbetrouwbaarheid wil berekenen. Volgens hem is voor Rorschach data het percentage overeenkomst de meest gebruikelijke schattingsmethode. Deze maat kampt echter met het probleem van een extreme basiskans van voorkomen. Een switch naar de kappa-coëfficiënt is te overwegen, maar ook deze maat kampt met problemen, nl. sensitiviteit voor een lage basiskans van voorkomen. De auteur raadt aan om met correlaties, b.v. intra-klasse-correlaties, te werken.

Een derde reactie van Exner (1996) poogt de kritiek van Wood et al. te omzeilen door te argumenteren dat de methode die hij gebruikt heeft om de interscorerbetrouwbaarheidsindices te berekenen beter ‘percentage correct’ in plaats van ‘percentage overeenkomst’ zou genoemd worden. Wood, Nezworski en Stejskal (1996b) reageren hierop door te stellen dat het percentage correct, d.i. de mate van overeenkomst tussen een codeerder en de correcte coderingen, een maat is voor de accuraatheid van de codering en dat deze maat niet als evidentie kan aangebracht worden voor de interscorerbetrouwbaarheid. Zij concluderen dan ook dat, als Exner werkelijk het percentage correct heeft berekend i.p.v. percentage overeenkomst, de werkelijke interscorerbetrouwbaarheid van het Comprehensive System nog steeds onbekend is.

Een tweede kritiek van Wood, Nezworski en Stejskal (1996a) op Exners methodologie voor het berekenen van de interscorerbetrouwbaarheidsindices van particuliere CS-variabelen betreft het feit dat Exner primair percentages overeenkomst voor individuele antwoorden, b.v. het coderen van een bepaalde variabele op één antwoord, vermeldt i.p.v. totalen, b.v. het aantal malen dat een bepaalde variabele gecodeerd is geworden binnen één protocol. Het is immers op basis van deze totalen dat de Rorschach Inkblot Test klinisch geïnterpreteerd wordt. Volgens Meyer (1997a) echter is het belangrijker dat de interscorerbetrouwbaarheid van individuele antwoorden aangetoond wordt. Het doel van de interscorerbetrouwbaarheid bestaat er immers in om aan te tonen dat het Comprehensive System een systematisch en consequent coderingssysteem is. Vermits de coderingen toegekend worden op het niveau van individuele antwoorden is het erg belangrijk om interscorerbetrouwbaarheid te berekenen op dit niveau van individuele antwoorden. Meyer (1997a) beweert verder dat totalen niets meer zijn dan samengetelde coderingen van individuele antwoorden. Vermits toevallige coderingsfouten de tendens vertonen om gecompenseerd te worden wanneer zij worden samengesteld, kan aangenomen worden dat totalen per definitie meer betrouwbaar zijn dan coderingen voor individuele antwoorden. Wanneer men zich dus bij het berekenen van de interscorerbetrouwbaarheid enkel op totalen baseert, bekomt men een overschatting van de interscorerbetrouwbaarheid van de coderingen. Wood, Nezworski en Stejskal (1997) daarentegen beweren dat er geen enkel psychometrisch artikel of geen enkele gepubliceerde demonstratie bestaat waarin aangetoond wordt dat de interscorerbetrouwbaarheid van totalen noodzakelijk hoger is dan de interscorerbetrouwbaarheid van coderingen van individuele antwoorden. De reactie van Meyer (1997b) hierop is kort en krachtig, nl. er bestaan wel degelijk studies die aantonen dat de interscorerbetrouwbaarheid van totalen hoger is dan de interscorerbetrouwbaarheid van coderingen van individuele antwoorden.

Wood, Nezworski en Stejskal (1996a) wijzen erop dat er een onderscheid moet gemaakt worden tussen de ideale interscorerbetrouwbaarheid van een test en de veldinterscorerbetrouwbaarheid, d.i. de interscorerbetrouwbaarheid die aangetoond wordt door mensen in de praktijk. De auteurs halen een studie van Exner aan waarin de veldinterscorerbetrouwbaarheden verontrustend laag zijn. Exner (1996) reageert hierop door te stellen dat de resultaten van zijn onderzoek de aanleiding waren voor het verbeteren van de scoringscriteria voor bepaalde categorieën in latere werken. Een analoog onderzoek wees uit dat de percentages overeenkomst voor deze categorieën opmerkelijk verbeterd waren voor deze categorieën. Meyer (1997a) merkt verder op dat een lage veldinterscorerbetrouwbaarheid niet noodzakelijk betekent dat het coderingssysteem van het Comprehensive System onbetrouwbaar is. Er zijn immers verschillende factoren, die niets met de betrouwbaarheid van het scoringssysteem te maken hebben, die een lage veldinterscorerbetrouwbaarheid kunnen veroorzaken, b.v. slecht getrainde afnameleiders. Wood, Nezworski en Stejskal (1997) voegen hier echter ironisch aan toe dat het waar is dat men op basis van slecht afgenomen tests geen valide conclusies kan trekken m.b.t. de (ideale) interscorerbetrouwbaarheid van de test. Een valide conclusie, volgens deze auteurs, is wel dat de test, wanneer deze gebruikt wordt in een klinische setting, meer schade dan goed kan berokkenen.

Volgens Lilienfeld et al. (2000) beweren voorstanders van de Rorschach Inkblot Test dat de test-hertest-betrouwbaarheid van verschillende variabelen van het Comprehensive System excellent is. In de literatuur echter kunnen er slechts voor 40% van de CS-variabelen studies teruggevonden worden waarin schattingen vermeld worden van de test-hertest-betrouwbaarheid van deze CS-variabelen.

Meyer (1997a) verwijt Wood et al. dat zij hun oordeel omtrent de interscorerbetrouwbaarheid van het Comprehensive System enkel baseren op twee, volgens Wood et al. (1996a) weinig overtuigende, interscorerbetrouwbaarheidsstudies. Volgens Meyer (1997a) heeft Exner in zijn boek voldoende overtuigende empirische argumenten aangehaald, in de vorm van test-hertest-coëfficiënten (bereik van 0.30 tot 0.90 en mediaanwaarde rond de 0.80), om de hypothese te ontkrachten dat codering met het CS op toeval verloopt. De kritiek op deze stelling van Exner loopt in twee richtingen.

Ten eerste beweert Lilienfeld et al. (2000) dat andere onderzoekers dan Exner steeds test-hertest-coëfficiënten voor CS-variabelen vinden die substantieel lager zijn dan deze van Exner. Lilienfeld et al. (2000) besluiten dat, wegens methodologische beperkingen i.v.m. test-hertest studies, de enige valide conclusie die men kan trekken is dat de test-hertest-betrouwbaarheid van de meeste CS-variabelen nog steeds een open vraag is die enkel kan opgelost worden d.m.v. verder onderzoek.

Ten tweede opperen Wood, Nezworski en Stejskal (1997) dat de gegevens, d.i. test-hertest-coëfficiënten, die Meyer aanhaalt op geen enkele wijze hun kritieken op de interscorerbetrouwbaarheid weerleggen. Hoge test-hertest-coëfficiënten kunnen immers niet als bewijs dienen voor hoge interscorerbetrouwbaarheidsindices omdat deze coëfficiënten niet de overeenkomst tussen codeerders onderzoeken. Meyer (1997b) stemt in met de opmerking dat test-hertest-coëfficiënten niet noodzakelijk gerelateerd zijn aan interscorerbetrouwbaarheidsindices. Lage test-hertest-coëfficiënten kunnen het gevolg zijn van zowel inconsiste scoring als van de natuur van het construct, d.i. sommige CS-variabelen kunnen veranderen over de tijd. Volgens de auteur echter vertonen de meeste studies dat de test-hertest-betrouwbaarheid van CS-variabelen excellent is. Vermits nu accurate codering deel uitmaakt van een retest-design, is het onmogelijk om hoge test-hertest-coëfficiënten te bekomen zonder reeds hoge interscorerbetrouwbaarheidsindices te hebben.

Lilienfeld et al. (2000) wijzen erop dat verschillende auteurs de afgelopen decennia aangetoond hebben dat R, d.i. het totale aantal antwoorden dat één onderzochte geeft op alle vlekken, gerelateerd is aan het totaal aantal keren dat een bepaalde CS-variabele in het protocol voorkomt. Vermits deze totalen de basis vormen voor klinische inferenties, hebben mensen met een hoge R meer kans om b.v. als agressief of depressief bestempeld te worden. Lilienfeld et al. (2000) voegen hier nog aan toe dan R hoger is in bepaalde culturele en educationele groepen en dat R positief gecorreleerd is met intelligentie. Hieruit concluderen deze auteurs dat bepaalde groepen van mensen een hoger totaal op bepaalde CS-variabelen en daardoor een hogere score voor bepaalde CS-indices van psychopathologie behalen, enkel omdat ze geneigd zijn meer antwoorden te geven op de aangeboden vlekken.

Lilienfeld et al. (2000) merken op dat sommige psychologen beweren dat men het R-probleem in het Comprehensive System kan elimineren door totalen te corrigeren voor R of door met ratio’s te werken. Wood, Nezworski en Stejskal (1996a) reageren hierop door te stellen dat er voor de meeste klinisch relevante scores en indices in het CS er niet, of slechts ten dele, gecorrigeerd wordt voor R (zie ook de bespreking van validiteit).

Volgens Lilienfeld et al. (2000) zijn er in de literatuur verschillende pogingen terug te vinden om het R-probleem op te lossen, b.v. het gebruiken van 45 inktvlekken en de onderzochte verplichten slechts één antwoord te geven of het houden bij de 10 oorspronkelijke inktvlekken en per inktvlek de onderzochte verplichten om juist 2 antwoorden te geven. Beide voorstellen echter werden maar met weinig succes in de literatuur onthaald. De meeste onderzoekers naar de Rorschach Inkblot Test en clinici immers blijken vol te houden dat het R-probleem niet bestaat, dat het geen belangrijke praktische gevolgen met zich meebrengt en dat het niet de moeite loont om oplossingen te zoeken voor het probleem (Lilienfeld et al., 2000).

Lilienfeld et al. (2000) onderscheiden voor het nagaan van de validiteit van de Rorschach Inkblot Test verschillende niveaus van benadering. Op deze verschillende niveaus is ook onze indeling voor de bespreking van validiteit gebaseerd. We beschrijven globale meta-analyses, specifieke meta-analyses, relaties met diagnoses en zelfrapporteringsgegevens, incrementele validiteit en tenslotte de factorstructuur van de Rorschach Inkblot Test.

Deze meta-analyses vergelijken de gemiddelde validiteit van verschillende tests. Meestal wordt de gemiddelde validiteit van de Rorschach Inkblot Test vergeleken met die van de MMPI (Minnesota Multiphasic Personality Inventory) en de WAIS (Wechsler Adult Intelligence Scale). In de literatuur (Garb, Florio & Grove, 1998, 1999; Hiller, Rosenthal, Bornstein, Berry & Brunell-Neuleib, 1999; Parker, Hanson & Hunsley, 1988) is een stevige discussie terug te vinden m.b.t. de methodologische aanpak en het trekken van conclusies bij de vergelijking van de validiteit van deze drie instrumenten.

Lilienfeld et al. (2000) formuleren vijf opmerkingen m.b.t. deze meta-analyses waarin ze de belangrijkste issues van de discussie in de literatuur weergeven. Ten eerste is de methodologische aanpak van deze meta-analyses erg zwak. Ten tweede wordt opgemerkt dat elk van deze meta-analyses uitsluitend zijn gebaseerd op gepubliceerde onderzoeken. Het probleem hierbij is dat gepubliceerde studies vaak veel grotere effecten rapporteren dan de niet gepubliceerde studies. Dit fenomeen staat bekend als het file drawer effect. Een derde -en in het kader van het spreken over validiteit- erg belangrijk probleem dat wordt vermeld is het feit dat globale meta-analyses of analyses per test weinig waarde hebben voor de klinisch toepassing, m.a.w. de validiteit van specifieke delen van een test of de validiteit van een specifieke toepassing kan met deze meta-analyses niet achterhaald worden (zie verder). Een vierde opmerking betreft de gemiddelde validiteitscoëfficiënten. In de globale meta-analyse van verschillende gepubliceerde studies convergeren de validiteitscoëfficienten van de Rorschach Inkblot Test op 0.30 (met een afwijking van plus of min 0.05). Dit zou er op kunnen wijzen dat enkele Rorschach indexen een matige validiteit hebben. Toch suggereren Lilienfeld et al. (2000) dat deze gemiddelde validiteitscoëfficiënt een overschatting is, te wijten aan de eerder besproken methodologische zwakheden en het file drawer effect. Als laatste wordt vermeld dat in het algemeen de gevonden gemiddelde validiteit van de Rorschach Inkblot Test lager is dan die van de WAIS. Andere meta-analyses suggereren bovendien dat de gemiddelde validiteit van de Rorschach Inkblot Test in het algemeen ook lager is dan voor de MMPI, hoewel de verschillen in dit geval niet erg groot zijn en in sommige studies zelfs niet statistisch significant. Opnieuw waarschuwen Lilienfeld et al. (2000) hier voor het uitsluitend gebruik van gepubliceerde studies en de verschillende methodologische tekortkomingen.

Zoals eerder reeds werd vermeld kunnen globale meta-analyses de validiteit van specifieke Rorschachscores voor specifieke doeleinden niet nagaan. In dit kader zijn de specifieke meta-analyses van belang. Hierbij concentreert men zich op de validiteit van de Rorschach Inkblot Test of een deel ervan bij gebruik in een specifieke context. Om begripsverwarring te voorkomen lijkt het ons daarom erg belangrijk om dit niet uit het oog te verliezen. Voor een instrument als de Rorschach Inkblot Test zou discussie in de literatuur veel efficiënter kunnen verlopen als er woorden worden gewisseld over dezelfde validiteit in dezelfde toepassing.

Strikt gesproken is het onjuist om te vragen of het Comprehensive System valied is of niet. Het systeem brengt een hele reeks percentages, ratio’s en scores voort en de validiteit zou moeten nagegaan worden voor elk apart. Geen enkel artikel kan de validiteit van alle scores in het systeem nagaan (Wood, Nezworski & Stejskal, 1996a).

Het is dus belangrijk om bij het onderzoek naar validiteit te focussen op een bepaalde subset van variabelen. Bij Wood et al. (1996a) ligt die focus op een aantal belangrijke klinische gegevens zoals psychologische symptomen of stoornissen, graad van functioneren of graad van stress omdat de validiteit van deze deelgebieden erg belangrijk is als je weet dat de Rorshach Inkblot Test in heel wat klinische settings als een diagnostisch instrument wordt gehanteerd. Zonder in te gaan op de betekenis van de afzonderlijke indexen vermelden we hier dat Wood et al. (1996a) concluderen dat zij voor The Egocentricity Index, Adjusted D, Depression Index en The Suïcide Constellation weinig of geen empirische evidentie voor validiteit hebben gevonden. Nochtans hebben deze scores allemaal een directe invloed op het nemen van beslissingen in een klinische context als de Rorschach Inkblot Test als een diagnostisch instrument wordt gebruikt.

Lilienfeld et al. (2000) vatten andere specifieke meta-analyses van de afgelopen decennia samen. Ook hun conclusies zijn weinig bemoedigend. Uit de convergentie van verschillende specifieke meta-analyses blijkt dat er uiteindelijk nog vier succesvolle scores kunnen worden gedistilleerd, nl. TDIR (Thought Disorder Index), SCZI (Schizophrenia Index), RPRS (Rorschach Prognostic Rating Scale) en ROD (Rorschach Oral Dependency Scale). Toch worden hierbij ook vier opmerkingen geformuleerd. Enkel de SCZI behoort tot het scoringssysteem van het Comprehensive System. De validiteit van de drie overblijvende scores doet dus feitelijk niet ter zake in onze bespreking van ‘The Comprehensive System’. Ten tweede is de methodologische kwaliteit van de onderzoeken die steun geven voor de validiteit van de ROD erg zwak. Ten derde worden er vragen gesteld bij de klinische praktijk. De RPRS bijvoorbeeld maakt gebruik van erg moeilijk te hanteren of omslachtige regels. Bij onderzoek naar de validiteit van de TDIR werd slechts gebruik gemaakt van op audiocassette opgenomen Rorschachsessies. Ten slotte zijn de normen voor de TDIR, de RPRS en de ROD niet representatief of recent genoeg. De hantering van de huidige normen voor de SCZI zorgt voor een onacceptabel hoog aantal vals positieven, vooral bij kinderen. Ondanks de bemoedigende hermeneutische en kwantitatieve reviews over deze indexen blijven er dus toch problemen met de toepassing in de klinische praktijk.

Lilienfeld et al. (2000) beschrijven de nood aan degelijke wetenschappelijke literatuur als reactie op de contradicties van enkele voorstanders van de Rorschach. Weiner (1997) bijvoorbeeld beweerde nog dat de Rorschach Inkblot Test degelijke empirisch gevalideerde indexen bevat voor het diagnosticeren van bepaalde psychopathologieën. In zijn conclusie schrijft Weiner (1997) zelfs dat ondanks het ruime gebruik en de validering door clinici en onderzoekers, de Rorschach Inkblot Test nog steeds niet het welverdiende respect heeft gekregen als degelijk psychometrisch instrument.

Twee jaar later schrijft Weiner, (1999) in Lilienfeld et al. (2000) echter dat de Rorschach Inkblot Test geen diagnostische test is, dat ze niet ontworpen is als diagnostische test en in feite niet werkt als diagnostische test, zeker niet als met een diagnose een DSM diagnose bedoeld wordt.

Lilienfeld et al. (2000) citeren letterlijk de ‘abstract’ van een eigen artikel (Wood, Lilienfeld, Garb & Nezworski, 2000a) en concluderen dat ondanks enkele positieve bevindingen, de Rorschach Inkblot Test als diagnostisch instrument weinig blijk geeft van validiteit. De positieve bevindingen zijn dat voor een aantal DSM diagnosen een relatie gevonden werd met de uitkomst van de Rorschach.[9] De negatieve bevindingen zijn dat afwijkende bewoordingen gerelateerd worden aan schizofrenie of een bipolaire stoornis zodat deze diagnosen vaak worden gesteld terwijl dit met andere diagnostische instrumenten niet het geval zou zijn.

Wat betreft de indexen voor zelfrapportering besluiten Lilienfeld et al. (2000) dat ook hier geen consistente relaties met de Rorschach Inkblot Test kunnen gevonden worden. Sommige voorstanders van de Rorschach zoals bijvoorbeeld Stricker en Gold (1999) in Lilienfeld et al. (2000) argumenteren in zo’n geval dat overeenkomst niet zinvol of wenselijk is. Met zo’n argumentatie kan aldus Lilienfeld et al. (2000) elke negatieve bevinding over de Rorschach Inkblot Test afgewimpeld worden.

Ze besluiten dat het uitblijven van correlaties tussen de Rorschach Inkblot Test met diagnoses of indexen van zelfrapportering twijfel zaait over de validiteit van de Rorschach voor de meeste doeleinden.

Voor alle duidelijkheid vermelden we hier kort wat we in dit geval onder incrementele validiteit verstaan. De incrementele validiteit van een test is de informatie of validiteit die een test kan toevoegen aan reeds bestaande informatie. Een concrete vraag in een diagnostische setting zou bijvoorbeeld kunnen zijn: Is het nuttig de Rorschach Inkblot Test af te nemen naast de andere diagnostische instrumenten die we ter beschikking hebben? Aangezien de tijdrovende afname, scoring en interpretatie van de Rorschach Inkblot Test, zou men toch een zekere incrementele validiteit verwachten.

Ook hier geven Lilienfeld et al. (2000) een degelijk overzicht van verricht onderzoek ter zake. Ze maken hier een onderscheid tussen klinische beoordeling en statistische predictie. Bij de klinische beoordeling waren er zelfs enkele studies waarin de validiteit daalde als de Rorschach Inkblot Test werd toegegoegd. Lilienfeld et al. (2000) vinden het verantwoord te concluderen dat er weinig steun is voor het gebruik van de Rorschach Inkblot Test in klinische settings, zeker als andere beoordelingsinstrumenten beschikbaar zijn.

Wat de statistische predictie betreft wordt er voor enkele Rorschach scores steun voor incrementele validiteit gevonden. Lilienfeld et al. (2000) sommen zes gebieden op waarin er statistisch significant betere predicties kunnen worden gedaan als de Rorschach Inblot Test of bepaalde indexen ervan worden toegevoegd aan andere instrumenten. Toch wordt hierbij opgemerkt dat zulke statistische incrementele validiteit enkel klinische relevantie heeft als hierbij exclusief en heel precies de uitkomst van de statistische predictieregels wordt gevolgd. Dit gebeurt echter maar heel zelden. Bovendien is het gros van de Rorschach scores niet onderzocht.

Lilienfeld et al. (2000) concluderen dat voor bijna alle Rorschach scores en de CS scores er geen evidentie is voor incrementele validiteit bij vergelijking met andere psychometrische informatie.

Factoranalyse helpt te zoeken naar verschillende dimensies die te onderscheiden zijn in de relaties tussen scores. Op deze manier kan worden nagegaan of deze dimensies dan ook overeenkomen met een patroon dat door de theorie voorspeld wordt. Lilienfeld et al. (2000) verwijzen naar vijf reviews en rapporteren in het kader van validiteit twee erg belangrijke bevindingen.

Ten eerste blijkt dat zeker de grootste factor en misschien ook de tweede grootste een hoge lading hebben op R. Deze bevinding bevestigt zoals eerder vermeld dat R een sterke invloed heeft op een groot deel van de Rorschach scores. Meyer (1989,1991) in Lilienfeld et al. (2000) stellen dat dit in sterke mate de validiteit van de Rorschach Inkblot Test compromitteert. Ze gaan zelfs zo ver dat ze elk onderzoek op het gebied van de Rorschach in vraag stellen omdat de meeste studies deze variabele R niet in rekening brengen.

Een tweede problematische bevinding is dat de verschillende Rorschach scores niet samenhangen of intercorreleren zoals op basis van de testtheorie of op basis van de kennis in de klinische praktijk zou verwacht worden.

Het was de bedoeling van Rorschach om zijn Inkblot Test uit te werken tot een perceptueel-nomothetisch instrument waarmee persoonlijkheidskarakteristieken konden opgespoord worden. Volgens psychometrici echter bezit de Rorschach Inkblot Test niet de (psychometrische) capaciteiten om aan deze doelstelling te kunnen voldoen. Het Comprehensive System van Exner probeert, d.m.v. gedetailleerde regels voor afname en scoring, normeringsgegevens en studies omtrent validiteit en betrouwbaarheid, de psychometrische kwaliteiten van de Rorschach Inkblot Test te verbeteren. Deze poging van Exner wordt echter in de literatuur op een ambigue wijze onthaald.

De normeringsgegevens die Exner presenteert zijn, volgens verschillende auteurs, achterhaald, niet representatief en ze vertonen de neiging tot overpathologisering. Tevens beweren verschillende auteurs dat deze normeringsgegevens totaal niet generaliseerbaar zijn naar andere samenlevingen dan deze van de Amerikanen.

Verschillende auteurs hebben kritiek op de wijze waarop Exner zijn interscorerbetrouwbaarheidsindexen voor CS-variabelen berekende, nl. d.m.v. percentage overeenkomst. Zij stellen dat kappa-oëfficiënten en intra-klasse-correlaties betere maten zijn voor een schatting van de interscorerbetrouwbaarheid. De discussie tussen voor- en tegenstanders van het percentage overeenkomst als maat voor de schatting van de interscorerbetrouwbaarheid is echter nog steeds volop aan de gang. Tevens zijn er auteurs die beweren dat de interscorerbetrouwbaarheid van de totalen, i.p.v. de afzonderlijke coderingen, moet nagegaan worden. Ook op dit vlak is er nog steeds discussie. Tenslotte wijzen sommige auteurs op het onderscheid dat moet gemaakt worden tussen (ideale) interscorerbetrouwbaarheid en veldinterscorerbetrouwbaarheid.

Voor de hoge test-hertest-betrouwbaarheidindexen van verschillende CS-variabelen, zoals Exner deze vermeldt, wordt er in de literatuur nauwelijks evidentie gevonden. Uit onderzoek blijkt enerzijds dat slechts voor 40% van de CS-variabelen test-hertest-betrouwbaarheidsindexen berekend zijn en anderzijds dat andere auteurs dan Exner steeds schattingen voor de test-hertest-betrouwbaarheid van CS-variabelen bekomen die significant lager zijn dan deze van Exner.

Verschillende auteurs halen studies aan die aantonen dat de meeste CS-totalen gecorreleerd zijn met R. Vermits R significant hoger is in bepaalde groepen en positief gecorreleerd is met intelligentie hebben verschillende groepen van mensen een grotere kans om als pathologisch bestempeld te worden enkel omdat ze de neiging vertonen om meer antwoorden te geven op de aangeboden vlekken. Alhoewel er in de literatuur verschillende pogingen terug te vinden zijn om het R-probleem op te lossen, doen de meeste clinici en Rorschach-onderzoekers alsof het R-probleem niet bestaat.

Net zoals voor het wetenschappelijk onderzoek naar de betrouwbaarheid geldt ook voor het onderzoek naar de validiteit dat er in de literatuur heel wat discussies tussen voor- en tegenstanders van de Rorschach Inkblot Test te vinden zijn. Het problematische in dergelijke discussies is vaak het feit dat niet steeds dezelfde definities gehanteerd worden. Om dit probleem in deze paper te omzeilen, hebben we voor de bespreking van de validiteit van de Rorschach Inkblot Test een onderscheid tussen verschillende niveaus van benadering gemaakt. Globale meta-analyses stellen het probleem dat de validiteit van het instrument voor een specifiek doeleinde niet kan onderzocht worden. Ze vergelijken enkel de gemiddelde validiteit en tonen daarbij doorgaans lagere waarden dan de WAIS en de MMPI. Wegens grote methodologische tekortkomingen en het file drawer effect, moeten de resultaten van deze globale meta-analyses echter met een korreltje zout genomen worden.

Specifieke meta-analyses houden wel rekening met een bepaalde subset van variabelen en het gebruik in een specifieke context. Toch wordt hier besloten dat ondanks enkele schaarse positieve bevindingen m.b.t. de validiteit van een subset van variabelen er toch problemen blijven met de klinische toepassing. Het uitblijven van correlaties met diagnoses en zelfrapporteringsgegevens zaait bovendien ook twijfel over de validiteit van de Rorschach Inkblot Test. Wat de incrementele validiteit betreft, wordt geconcludeerd dat hiervoor tot nu toe nog geen empirische evidentie gevonden werd. Bij de bespreking van de factorstructuur tenslotte maakten we melding van vragen die gesteld worden bij de waarde van het onderzoek dat tot nu toe verricht werd naar de validiteit van de Rorschach Inkblot Test. Op R lijkt de grootste factor te laden en de verschillende variabelen van het instrument lijken onderling niet samen te hangen zoals voorspeld wordt door de theorie of de klinische praktijk.

De TAT is een constructietechniek ontwikkeld door H. Murray en C. Morgan in 1935. Een andere benaming is de plaatjes – interpretatie methode. Wanneer we een verhaal lezen, leren we niet alleen iets over de fictieve personages, maar ook iets over de auteur zelf. Deze observatie leidde Murray en Morgan tot de ontwikkeling van de TAT.

Murray ontwikkelde de TAT met een bepaalde persoonlijkheidstheorie in gedachten, namelijk dat het menselijk gedrag het resultaat is van psychobiologische factoren en omgevingsaspecten. Murray gaat er dus vanuit dat gedrag bepaald wordt door de combinatie van twee factoren. De gedragsreactie van een organisme kan steeds toegeschreven worden aan een hypothetische kracht, behoefte of nood (Eng. : need) binnen het organisme. Naast deze noden situeert Murray een aantal significante gedragsdeterminanten in de omgeving (Eng. : press). Een individu kent op elk moment een complexe integratie van needs en presses. De centrale notie in de dynamische persoonlijkheidstheorie van Murray is de need–press combination of het thema.

Er zijn volgens Murray 2 algemene psychische tendenties die leiden tot de mogelijkheid van dergelijk plaatjes/methode – onderzoek. Ten eerste is er de neiging van de mens om ambigue menselijke situaties te interpreteren in overeenstemming met zijn vroegere ervaringen. Ten tweede is er de tendentie om bij het schrijven of vertellen van een verhaal te putten uit ervaringen, hierdoor komen de onbewuste gevoelens en wensen aan de oppervlakte bovendrijven. Er wordt dus gereflecteerd over de behoeften, emoties, conflicten, … van de proefpersoon op bewust en op onbewust niveau. Men beweert ook dat de TAT info bezit over de denkorganisatie, emotionele responsiviteit, interpersoonlijke relaties, zelfconcept, coping mechanismen, … .

De eerste stap die in het analyse–systeem van Murray wordt gedaan, is het opsporen van de held in het verhaal. De volgende stap in de analyse is het opsporen in detail wat de helden op de verschillende platen voelen, denken, wensen of doen. Vervolgens gaat men op zoek naar de behoeften (needs b.v. dominantie, prestatie, hostiliteit…) van deze protagonisten. Er wordt hierbij een lijst van 28 aandriften gebruikt. Men moet dan de sterkte van de aandriften beoordelen in een zespuntsschaal. Op dezelfde manier wordt er gekeken naar de druk (Eng. : pressure) vanuit de omgeving op de held.

Er zijn enkele modificaties geweest tot in 1943 de huidige test met handleiding verscheen. De TAT is na de Rorschachtest de meest gebruikte projectietest. De TAT heeft weinig voorgeschiedenis. Er zijn ook veel varianten op de TAT ontstaan, o.a de Child Apperception Test, de Blacky Pictures Test, de Gerontological Apperception Test, … .

Men kan drie modificaties onderscheiden: (1) modificaties waarbij de oorspronkelijke TAT – platen van Murray worden gebruikt; (2) modificaties waarbij de afbeeldingen op één enkel principieel punt zijn gewijzigd; (3) modificaties waarbij alleen de hoofdinhoud van de bepaalde platen is behouden. De platen zijn in hoge mate polyinterpretabel. Het zijn immers ambigue afbeeldingen. De testopdracht is “Wat was de aanleiding tot de afgebeelde situatie, wat stelt deze voor, wat ging eraan vooraf en hoe loopt dit verder af ?”.

De test bestaat uit 30 afbeeldingen en 1 blanco kaart. De afbeeldingen zijn deels ontleend aan tijdschriften, deels reproducties van bestaande schilderijen en deels tekeningen die speciaal zijn ontworpen voor de test (o.a door C. Morgan). Sommige platen kunnen aan alle proefpersonen voorgelegd worden, andere zijn meer geschikt voor bepaalde proefpersonen. Voor elke leeftijd en geslacht is er een reeks van 20 platen beschikbaar. De TAT is bruikbaar vanaf 7 jaar en vanaf 15 jaar kan men de platen voor mannen en vrouwen aanbieden. Niet al de 31 afbeeldingen zijn dus voor één individu bestemd, men gebruikt slechts enkele van de platen, omdat een volledige afneming zeer veel tijd kan vergen, de test moet immers mondeling worden afgenomen. De interpretatie is ook tijdrovend. Schriftelijke afneming is ook mogelijk. Behoudens bepaalde waardevolle observatiegegevens vb. stotteren, lange pauzes … levert dit dezelfde resultaten op als de mondelinge afneming.

De TAT wordt zeer veel gebruikt in klinische settings. Er is echter ook zeer veel kritiek op gekomen vanuit methodologisch onderzoek.

Het statuut van projectieve technieken in de kliniek is dus een fel bediscussieerde, hoewel op grote schaal toegepast werd erg veel kritiek geuit op hun psychometrische eigenschappen (zie ook supra). De Thematic Apperception Test (TAT) behoort, samen met ondermeer de Rorschach, tot de meest door klinische psychologen toegepaste instrumenten, zodat een grondige invraagstelling van de wetenschappelijke status een vereiste is.

In deze paragraaf beperken we ons tot de TAT, omdat deze test erg bekend is en enigszins als voorbeeld kan dienen, hoewel generaliseren delicaat zoniet onmogelijk is : tussen de diverse technieken onderling duiken er grote verschillen op qua bijvoorbeeld constructvaliditeit. Illustratief ter duiding van de ongelijkheden kan de taxonomische indeling van Lindzey zijn (Lindzey, 1959), die 5 subtypes onderscheidt in de projectieve technieken, waarbij de TAT hoort onder de categorie der constructie-technieken (Lindzey, 1959). Andere, naast constructvaliditeit, hier voorname factoren zijn predictieve validiteit, betrouwbaarheid (incorporeert test-hertest betrouwbaarheid, interbeoordelaarsbetrouwbaarheid en interne consistensie, zie verder onder ‘Betrouwbaarheid’), incrementele validiteit (in hoeverre levert een instrument extra informatie op, naast andere informatie afkomstig van b.v. zelf-rapportering?), en nut voor de behandeling (Lilienfeld et al., 2000).

Twee belangrijke bemerkingen bij dit alles: (a) Als men als methode een meta-analyse uitvoert, zal de zgn. publicatie-bias meespelen - er bestaat een selectieve tendens om negatieve bevindingen niet te publiceren, en de effectgrootte van gepubliceerde artikels is opmerkelijk groter dan die van ongepubliceerde. (b) In de klinische praktijk wordt zelden een standaard stimulusset gehanteerd, en hetzelfde geldt voor het gebruikte scoringssysteem. Dit gegeven is erg belangrijk, en zal het noodzakelijk maken om bij de psychometrie-bespreking een indeling volgens scoringsschema aan te houden. Alvarado (1994) geeft het belang aan van potentiële invloeden van kaart-inhoud, presentatievolgorde der kaarten, en vorm van de instructies. Daarom zouden onderzoekers steeds moeten nagaan of hun resultaten toe te schrijven zijn aan subjectkarakteristieken dan wel aan louter artefact zijn van de experimentele procedure. Verder vermelden Lilienfeld et al. (2000) het “Walter Mitty” effect en het inhibitie-effect, die inhouden dat respectievelijk hoge en lage niveau’s op een zeker attribuut kunnen te wijten zijn aan een bepaalde mate van fantaseren dat men een attribuut erg bezit (hoog) of een onderdrukken van de expressie van een attribuut (laag). In beide gevallen wordt het waarheidsgehalte van het door het subject verhaalde verlaagd. Daartegenover kunnen we in navolging van Cramer (1999) benadrukken dat de TAT narratief van aard is, en dat het verhaal van de verteller een constructie van de realiteit is, en niet louter een reconstructie.

Ondanks de kritiek wordt de TAT nog veel toegepast, en wordt hij onder clinici als nuttig ervaren. Men zou kunnen zeggen dat afdoende empirische ondersteuning van de ‘klinische validiteit’ (Alvarado, 1994) nog moet gerealiseerd worden, maar dat de test daarentegen wel reeds een soort subjectieve validiteit heeft verworven, in de mate dat de TAT bruikbare informatie oplevert over de emotionele responsen van subjecten op afbeeldingen van bepaalde conventionele menselijke situaties. De kracht van de TAT zou dan schuilen in wat hij aan verborgen materiaal openbaart, gegevens die men via meer directe methodes niet zou kunnen of willen mededelen.

Voor onderzoeksdoeleinden kan de TAT beschouwd worden als een vorm van observationeel gedrag, en scoringssystemen moeten dan bijvoorbeeld toelaten op gedrag gebaseerde vergelijkingen tussen groepen te maken.

Zoals reeds vermeld, zijn de gehanteerde scoringsschema’s, voorzover ze überhaupt gebruikt wórden, heel uiteenlopend. De meeste clinici interpreteren de TAT op een impressionistische wijze, zich baserend op klinische beoordeling en intuïtie. Daarom is het goed volgens enige representatieve scoringstechnieken in te gaan op psychometrische bevindingen. Er zijn een drietal aanpakken ter systematische TAT-scoring die veelbelovend zijn gebleken : (1) behoeftescoring schema’s, (2) nagaan van objectrelaties, en (3) nagaan van defensiemechanismen (vb. Cramer: de Defense Mechanisms Manual, 1991).

Het standaardiseren van de TAT, wat ondermeer het gebruik van voorgeschreven scoringsschema’s inhoudt, lijkt geen prioriteit te zijn in het werkveld. Nochtans, o.m. Garb (1998) wijst op het gegeven dat zogenaamde experten vaak niet accurater zijn in hun gestelde intuïtieve diagnoses dan andere beoordelaars. De auteur benadrukt dan ook de nood aan een volwaardiger TAT-training in psychologie-opleidingen, teneinde een betere integratie van wetenschap en praktijk te verwezenlijken. De resultaten van empirisch onderzoek zouden het onderricht in de afname en scoring van de TAT moeten sturen, en meer éénvormigheid zou normatieve data mogelijk maken.

Hoezeer bij onderzoek (in de pracktijk is de situatie nog schrijnender) bij afname aangewende sets platen van elkaar kunnen verschillen werd overtuigend geïllustreerd door Keiser & Prather (1990), die alle TAT-artikels over een tijdspanne van 10 jaren heen verschenen in het vaktijdschrift ‘Psychological Abstracts’ nakeken (69 stuks waren beschikbaar voor het onderzoek) : slechts 26 studies specifieerden de Murray-kaarten met nummer, bij de andere ontbrak deels informatie daarover, of er werden andere platen gehanteerd. Bijna één derde der studies vermeldde helemaal niets dienaangaande.

Het bekendste scoreschema gericht op behoeftescoring is dat van McClelland, Atkinson, Clarke en Lowell (1953), om prestatiebehoefte (Eng. : need for achievement) na te gaan. De geschreven verhalen van de respondenten worden daartoe gescoord volgens een gedetailleerde schema. Ten grondslag aan deze procedure ligt het gegeven dat projectietechnieken in staat zouden zijn impliciete motieven, i.e. behoeften waar het subject zich niet van bewust is, bloot te leggen. Daarin verschillen ze van zelfrapportering, die zelf-toegekende motieven taxeert.

Cramer (1999) spreekt zich uit tegen metingen van betrouwbaarheid gebaseerd op interne consistensie. TAT kaarten zijn immers onvergelijkbaar met een serie items op een persoonlijkheidsschaal die allen bedoeld zijn eenzelfde persoonlijkheidstrek te meten. De alfacoëfficiënt is dus een ongeschikte meting van betrouwbaarheid. Rechtstreeks betrouwbaarheidsonderzoek heeft over het algemeen lage tot middelmatige correlaties opgeleverd. De betrouwbaarheid varieert afhankelijk van het gevolgde uitwerkingssysteem. Men moet dus steeds de gevonden coëfficiënten relateren aan het desbetreffend systeem. De algehele klinische betrouwbaarheid is dus niet hoog. Gevonden waarden voor behoeftescoring stijgen zelden uit boven 0.40 (Lelienfeld et al., 2000).

Test-hertest betrouwbaarheid is evenmin aangewezen, daar bij een volgende aanbieding het verrassingselement minder zal meespelen, subjecten de neiging vertonen een ánder verhaal te willen vertellen, en de gemeten psychologische karakteristiek kan veranderd zijn, zowel door aan het experiment inherente factoren als door bijvoorbeeld therapeutische interventie. Evenwel, in een studie van Winter en Stewart (1977) werd aangetoond dat de test–hertest betrouwbaarheid hoger is, wanneer aan de proefpersonen expliciet gevraagd wordt om bij de retest dezelfde verhalen te schrijven, i.p.v. een andere versie. Test-hertest scores liggen doorgaans laag, in het 0.30-bereik, en volgens Winter en Stewart (1977) is dit resultaat te wijten aan impliciete strategieën van subjecten en instructies van de test zelf.

Cramer (1999) stelt observatie voor als hoeksteen om tot een betrouwbaarheidsraming te komen, en suggereert dan ook interbeoordelaarsbetrouwbaarheid als te volgen methodologische weg. Deze laatste ligt voor TAT behoeftescoringsschema’s typisch tussen 0.80 en 0.90 (Fineman, 1977).

Om constructvaliditeit na te gaan is het volgens Cramer (1999) om 2 redenen niet aan te raden om correlaties tussen de TAT en zelfrapportering metingen te vergelijken. Ten eerste toetsen metingen gebaseerd op de TAT een verschillend niveau van persoonlijkheid dan zelfrapporteringen : persoonlijkheidstrekken versus persoonlijke aangelegenheden (Eng. : personal concerns; zijnde doelen, strategieën en defensiemechanismen). Ten tweede is het volgens Cramer paradoxaal om mensen bij zelfrapportering te vragen naar hun persoonlijkheidskenmerken die, per definitie, gewoonlijk ontoegankelijk zijn voor het bewustzijn. Een meta-analyse uitgevoerd door Spangler (1992), die zich toch baseerde op correlaties tussen TAT en zelfrapportering, gaf een bedroevend lage gemiddelde correlatie van 0.09 als resultaat. De vergeleken methodes determineren blijkbaar wel degelijk andere constructen.

Men zou bijvoorbeeld, in plaats daarvan, om constructvaliditeit te controleren, kunnen trachten aan te tonen hoe de theorie geleid heeft tot de constructie van het TAT coderingssysteem, en er zich van vergewissen of dit systeem de te peilen theoretische constructen accuraat en adequaat reflecteren. Een andere mogelijkheid om vanuit de theorie te werken, is via predictie. Theoretisch zou het mogelijk moeten zijn tevoorspellen welke veranderingen in de persoonlijkheid moeten optreden bij wijziging van de omstandigheden, constructvaliditeit moet dan gezocht worden in de bevestiging van theoretische predicties.

Westen coderingsschema voor de TAT (Westen, 1991) behelst het inschatten van niveau’s van objectrelaties (bedoeld wordt de mentale representaties over andere personen). Daartoe werd de Social Cognition and Object Relations Scale (SCORS) opgesteld.

De studie van objectrelaties moest de volgende domeinen omvatten : complexiteit van representaties van mensen, affectkleur van relationele schema’s, capaciteit tot emotioneel investeren in relaties, en het verstaan van sociale causaliteit. Elk van deze zaken werd onderverdeeld in 5 niveau’s, gaande van primitief tot matuur. Het gebruik van de SCORS voorziet in een manier om systematisch het ontwikkelingsniveau, of de relatieve pathologie, van verscheidene patiënttypes te determineren, gebaseerd op een bepaling van objectrelaties.

Over de SCORS kan nagenoeg hetzelfde beweerd worden als over behoeftescoring : De interbeoordelaarsbetrouwbaarheid is hoogst bevredigend, meestal rond 0.90 (Westen, Ludolph, Lerner, Ruffins & Wiss, 1989), terwijl de interne consistensie laag is (Cronbach alfa’s 0.59 à 0.77), en de test-hertest betrouwbaarheid zelfs nooit terdege getoetst is geworden.

De constructvaliditeit werd in diverse studies met klinische populaties goed bevonden, de SCORS blijkt differentiële diagnostiek mogelijk te maken. Vooral de borderline persoonlijkheidsstoornis werd dienaangaande onderzocht. Cramer (1999) vond resultaten die de theorie onderschrijven dat borderline adolescenten een meer dan normaal kwaadaardige objectwereld bezitten, net als een relatieve incapaciteit om te investeren in anderen op een aangenaam-behaaglijke wijze, en een tendens vertonen om motivatie bij anderen te attribueren op een al te eenvoudige, onlogische en idiosyncratische manier. Westen, Lohr, et al. (1990) vonden meestal de verhoopte resultaten bij een onderzoek waarbij naast een controlegroep zowel borderline persoonlijkheidsstoornis als major depressie patiënten betrokken waren, en gefocust werd op onderlinge verschillen op het niveau van de vier schalen waaruit de SCORS is opgebouwd (complexiteit menselijke relaties, enz. ...). Evenzeer bemoedigend is het onderzoek van Ackerman, Clemence, Weatherill en Hilsenroth (1999), die ondermeer borderline en antisociale persoonlijkheidsstoornis in het proefopzet opnamen, daar ook hier de theoretische predicties grotendeels gestaafd werden. De SCORS blijkt dus wel degelijk significant geassocieerd te zijn met zekere psychopathologische condities. Onopgeloste problemen bij Westen et al. (1990) en bij Ackerman et al. (1999) geven echter aan dat het bedoelde verband verre van perfect is : (a) er werden complexere objectrelaties gevonden bij de borderline- dan bij de controlegroep, hoewel Cramer (1999) wijst op de grote vairabiliteit in de klinische populatie, en (b) ten aanzien van andere groepen vertoonde de antisociale persoonlijkheid te lage niveau’s van immoraliteit en agressie. Bovendien is aangetoond dat intelligentie enerzijds, en het aantal door de respondenten geproduceerde woorden anderzijds, positief correleren met respectievelijk de complexiteitsschaal, en de affectkleur- en sociale causaliteit-schalen van de SCORS. Eenzelfde bemerking kan trouwens gemaakt worden voor de behoefteschaal-scoringsschema’s, waar intelligentie gematigd positief samenhangt met de TAT-indexen, en in toekomstige studies aldus best als covariaat in de analyse opgenomen wordt (wat niet gebeurde in de tot nu toe aangehaalde artikels).

Consensusanalyse, gevolgd door multidimensionele schalering (MDS), leverde evenzeer steun op voor de indeling gesuggereerd door Westen (1991) gebaseerd op objectrelaties. In het bijzonder affectkleur bleek een voorname component in de betekenis die subjecten aan de platen toekennen. Om emotie experimenteel aan betekenis te koppelen werd zowel een emotionele respons beslissingstaak (platen apart aangeboden dienden op een Likertschaal beoordeeld te worden volgens intensiteit van de emotionele respons) als een figuur triade taak (van drie TAT-platen moest telkens aangegeven worden welke het meest apart/afwijkend gebaseerd was op een ‘persoonlijke boodschap of betekenis’) afgenomen. De emotionele respons die de afbeeldingen teweegbrengen vermag dus op een systematische wijze bij te dragen tot het cognitief beslissingsproces. Algemeen is consensusanalyse nuttig van zodra men wil bepalen of responsen idiosyncratisch zijn, tegenover het bestaan van een gemeenschappelijke antwoordtendens binnen een groep (Alvarado, 1994). Indien consensus niet bereikt wordt, kunnen de individuele responspatronen geanalyseerd worden teneinde subgroepen in de stimuli te onderscheiden voor dewelke overeenkomst wél bestaat, of niet. Het concensusmodel levert bovendien een competentiescore voor elk subject op (komt de persoon overeen met de groep ?), en een gemiddelde competentiescore als maat voor de homogeniteit van de responsen binnen de groep. Alvarado (1994) gebruikte deze techniek, om vervolgens via MDS clusters te ontdekken in de collectie aangeboden Murray-platen. Er ís een zekere consensus in de responsen op de gepresenteerde kaarten te vinden, “... that the cards are not as ambiguous as their developers had hoped.”, maar de link tussen emotionele respons en cognitief oordeel onderschrijft de klinische validiteit van de TAT, ondanks het gebrek aan statistisch gedemonstreerde empirische validiteit, “Emotion underlies most clinical disturbance, and there seems little doubt that the TAT pictures reliably evoke emotional responses in subjects” (Alvarado, 1994).

Cramer (1991) ontwikkelde de Defense Mechanisms Manual (DMM), een TAT coderingssysteem ontworpen om de aanwezigheid van drie defensies te toetsen.

De drie defensiemechanismen representeren verschillende graden van rijpheid. ‘Ontkenning’ is de meest primitieve defensiemechanisme, ‘projectie’ is een complexer en rijper defensiemechanisme, en ‘identificatie’ heeft de hoogste graad in complexiteit en rijpheid. De drie defensies zijn gecodeerd in een set criteria, deze worden beschreven in een scorehandleiding met voorbeelden. Elk TAT verhaal wordt dan gescoord op elk defensiemechanisme, door meer dan één beoordelaar. Verschillende studies hebben aangetoond dat dit een voldoend hoge interbeoordelaarsbetrouwbaarheid oplevert. Ter illustratie de criteria die horen onder het ontkenning-defensiemechanisme : weglating, misperceptie, omkering, ontkennende/loochenende beweringen, ontkenning van de realiteit, overdreven maximaliseren van het positieve en minimaliseren van het negatieve, en tenslotte onverwachte goedheid, optimisme, zelfverzekerdheid en vriendelijkheid.

De DMM aanpak voor de toetsing van defensiemechanismen is gebruikt geworden in zeer veel studies met kinderen, adolescenten, volwassenen en psychiatrische patiënten. Wederom is generalisatie over al deze studies niet mogelijk, wegens de diversiteit van het aangeboden stimulusmateriaal, en populatienormen van de DMM zijn niet beschikbaar.

Eenzelfde tendens in de resultaten als bij de andere scoringsschema’s: de interbeoordelaarsbetrouwbaarheid is in orde, wat niet gezegd kan worden van de interne consitensie en de test-hertest betrouwbaarheid. Cramer en Block (1998) vonden Pearson correlaties van 0.81, 0.80 en 0.64 voor respectievelijk ontkenning, projectie en identificatie.

Toetsing kan geschieden op verschillende manieren, omdat bij defensiemechanismen een zeker verloop, een groei doorheen de levensjaren, te onderkennen valt. Overheen de schooljaren zou er een terugval in het gebruik van ontkenning moeten plaatsvinden, terwijl projectie en zeker identificatie verwacht worden eigen te zijn aan het bereiken van een zekere maturiteit. Onderzoek op niet-klinische populaties is dus zinvol. Cramer (1999) deed cross-sectioneel onderzoek bij schoolkinderen, leeftijd 6 à 16 jaren, en vond de voorspellingen stavende resultaten. Daarnaast is ook klinisch onderzoek mogelijk : Hibbard et al. (1994) trachtten te differentiëren tussen psychiatrische patiënten en een controlegroep, en slechts identificatie bleek significant hoger te liggen in de referentiepopulatie. De constructvaliditeit van de TAT wordt dus niet tenvolle ondersteund.

Psychodynamische modellen voorspellen een stijging der DMM-scores na stressvolle ervaringen, en Cramer en Gaul (1988) vonden bij schoolkinderen een toename in het gebruik van ontkenning en projectie (maar niet van identificatie) na het geven van negatieve feedback op een perceptueel-motorische taak. Geopperd werd dat defensiemechanismen een psychologische zelfprotectie kunnen vormen na traumatische ervaringen. Dergelijk theorie-gedreven onderzoek kwam ook reeds kort ter sprake bij behoeftescoringschema’s. Omdat bepaalde vormen van psychopathologie positief samenhangen met het gebruik van defensiemechanismen, en andere niet of minder, blijft natuurlijk de vraag bestaan of niet welk patroon aan bevindingen dan ook niet altíjd kan geïnterpreteerd worden als ondersteuning voor de DMM-validiteit. Het te toetsen concept (een zekere pathologie) dient dus a priori strikt genoeg omschreven te zijn.

Verschillende TAT scoreschema’s hebben geen adequate normen beschikbaar. Deze zijn nochtans nodig om te vermijden dat clinici psychopathologie overdiagnosticeren. De test hertest – betrouwbaarheid van deze scoreschema’s is twijfelachtig. En er is ook culturele bias.

De conclusie die we kunnen trekken uit de drie uitgewerkte tactieken (behoeftescoring, DMM & SCORS) is dat de constructvaliditeit van verscheidene TAT scoreschema’s, i.e. toetsing van de behoefte ‘prestatie’ en objectrelaties, voldoende hoog is. Het gebruik van de TAT voor het toetsen van defensiemechanismen heeft daarentegen een lage interne consistentie.

De TAT is een veel gebruikt instrument in klinische settings, waarschijnlijk omwille van het feit dat het bruikbaar materiaal oplevert voor de clinici. Daarentegen levert onderzoek naar de validiteit en betrouwbaarheid ontmoedigende cijfers op, wat grotendeels te wijten is aan dergelijk onderzoek, eerder dan aan het instrument zelf. Het belang van de matige ondersteuning der constructvaliditeit voor de klinische praktijk is evenwel twijfelachtig, daar het overgrote deel van de clinici enkel en alleen op impressionistische interpretaties van de TAT vertrouwen. Het onderzoek naar de TAT is zeer variabel, er is immers erg divers stimulimateriaal van de TAT in omloop. Generalisatie van de ene studie naar de andere is bijgevolg bijna onmogelijk, te wijten aan de gebrekkige consistentie en specificiteit van materiaal en procedures. Men gebruikt bijvoorbeeld al te vaak andere kaarten i.p.v de oorspronkelijke Murray-platen.

Dit alles betekent niet dat de TAT waardeloos is voor individueel gebruik. De TAT kan worden gebruikt als aanknopingspunt voor het gesprek, en/of aanwijzingen opleveren voor nader onderzoek.

De TAT moet men eerder beschouwen als een observatiemethode dan als een psychometrische test. Hoe dan ook, de wetenschappelijke status van de TAT dient nog verder geëxploreerd te worden.

Vaak zijn de onderzoeksresultaten omtrent betrouwbaarheid en validiteit onduidelijk en spreken elkaar tegen. De betrouwbaarheid en de validiteit van deze technieken worden door de ene verguisd en door de ander met hand en tand verdedigd. Daarbij valt een grote discrepantie tussen de praktijk en het onderzoek op. Vaak wordt in de praktijk volop gebruik gemaakt van technieken die psychometrisch een erg slecht figuur slaan

Lilienfeld et al. (2000) vermelden studies die aangegeven dat 49% tot 65% van de ondervraagde verantwoordelijken van opleidingsprogramma’s voor psychologen de projectieve technieken als onontbeerlijk voor de opleiding beschouwen. Bovendien geven ze ook aan dat projectieve technieken, waaronder de Rorschach en de TAT, tot de top tien van de meest gebruikte technieken behoren. Andere onderzoeken daarentegen maken notie van een dalend gebruik of zelfs een doelbewuste verbanning van de technieken. We maken daarbij de kantekening dat niet noodzakelijke een tegenstellingmoet zijn: het gebruik van de technieken kan dalen, ondanks het feit dat heel populair zijn.

Lilienfeld et al. (2000), Van Der Molen (1997) en Masling (1997) verklaren het voorkomen van de vele kritieken op de projectieve technieken vanuit het vaak ontbreken van de bespreking van de methodologische aspecten.

De kritieken slaan voornamelijk op aspecten van de betrouwbaarheid (het niet-gestandaardiseerd zijn van het scorens-, normerings[10]- en interpretatiesystemen, de onderliggende assumpties betreffende het scoren en de moeilijkheden bij het verwerven van expertkennis en bij de trainbaarheid) en op aspecten van de validiteit (de voorspellende kracht en de overeenkomst tussen verschillende technieken is heel laag). Het is moeilijk om bij de technieken na te gaan of de gegeven antwoorden van de onderzochten echt zijn dan wel geveinsd (Lilienfeld et al., 2000) of wat de invloed is van de minimale interferenties van degene die de techniek afneemt.

Bovendien worden de technieken vaak gebruikt voor een ander doel dat dat waarvoor de techniek oorspronkelijk werd opgesteld. Zo dient bijvoorbeeld de Rorschach-vlekkentest niet om een DSM-diagnose te stellen. Het spreekt daarom voor zich dat we niet noodzakelijk een hoge correlatie tussen de DSM en de techniek mogen verwachten. Hoewel dit volgens sommige auteurs ook gerelativeerd moet worden, gezien de hoge correlaties met het opsporen van bepaalde pathologieën (Lilienfeld et al., 2000).

Lilienfeld et al. (2000) leggen daarnaast ook de nadruk op een vaak sterk verontachtzaamde kritiek: namelijk. de gegevens omtrent de betrouwbaarheid en de validiteit kunnen sterk vertekend kunnen zijn door het weglaten van insignificante resultaten. Het polariseren van de resultaten door zowel voor- als tegenstanders is hier mogelijks de oorzaak van (De Boeck, 1999).

De projectieve technieken hebben ook voordelen. Deze technieken worden vaak als ‘ijsbreker’ ervaren door zowel de onderzochte als door degene die de techniek afneemt. Vaak worden er een hele testbatterij vol vragenlijsten afgenomen. De meeste[11] projectieve technieken worden dan als interessant en aangenaam ervaren. Natuurlijk speelt de pathologie van de onderzochte ook rol. Daarnaast wordt, zoals reeds boven vermeld, sociaal wenselijk gedrag geminimaliseerd en worden bewuste verdedigingsmechanismen bij het antwoorden door de aard van de technieken omzeild.

Het is niet te verwachten dat de projectieve projectiemethoden uit het diagnostisch instrumentarium zullen verdwijnen. Ze verschaffen nu eenmaal informatie die niet op een andere wijze te verkrijgen zijn (Exner, 1976 en Wade et al., 1977). Men zal dus moeten blijven zoeken naar meer betrouwbare en meer valide uitwerkingsmethoden van de projectietests. Ook nieuwe data-verwerkingstechnieken zullen in de toekomst mogelijkheden kunnen bieden voor sommige projectiemethoden.

Ackerman, S.J., Clemence, A.J., Weatherill, R., & Hilsenroth, M.J. (1999). Use of the TAT in the assessment of DSM-IV Cluster B personality disorders. Journal of Personality Assessment, 73, 422-448.

Alvarado, N. (1994). Empirical validity of the Thematic Apperception Test. Journal of Personality Assessment, 63(1), 59-79.

Arononow, E. , Reznikoff, M., & Moreland, K. L. (1995). The Rorschach: Projective technique or Psychometric test?. Journal of Personality Assessment, 64, 213-228.

Campbell, D. T. , & Fiske, D.W.(1959).Convergent and discrimant validity by the multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105.

Carmines, E. G., & Zeller, R. A. (1979). Reliability and validity assessment. London: Sage Publications.

Cramer, P. (1991). The development of defense mechanisms: Theory, research and assessment. NY: Springer-Verlag.

Cramer, P. (1999). Future directions for the Thematic Apperception Test. Journal of Personality Assessment, 72, 74-92.

Cramer, P., & Block, J. (1998). Preschool antecedents of defense mechanism use in young adults: A longitudinal study. Journal of Personality and Social Psychology, 74, 159-169.

Cramer, P., & Gaul, R. (1988). The effects of success and failure on children’s use of defense mechanisms. Journal of Personality, 56, 729-742.

Cronbach, I. J., & Meehl P. I.. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281-302.

De Boeck, P. (1999). Cursus: Vraagstukken uit de psychodiagnostiek. Leuven: Niet-gepubliceerde uitgave.

de Zeeuw, J. (1995). Algemene psychodiagnostiek I: Testmethoden (7^e druk). Lisse: Swets & Zeitlinger.

Exner, J. E., Jr. (1992). R in Rorschach research: A ghost revisited. Journal of Personality Assessment, 58, 245-251.

Exner, J. E., Jr. (1996). A comment on “The Comprehensive System for the Rorschach: A critical examination”. Psychological Science, 7, 11-13.

Ericson, K., Hilleras, P., Holmen, K., Jorm, A. et al (1994). The short human figure drawing scale for the evaluation of suspect cognitive dysfunction in old age. Archives of gerontology and geriatrics, 19(3), 243-251.

Fineman, S. (1977). The achievement motive and its measurement. Where are we now? British Journal of Psychology, 68, 1-22.

Freud, S. (1998). Psychoanalytische opmerkingen over een autobiografisch beschreven geval van paranoia (dementia praecox).In S.Freud, Ziektegeschiedenissen 4. Amsterdam: Boom Meppel.(Oorspronkelijke versie gepubliceerd in 1911).

Garb, H.N. (1998). Recommendations for training in the use of the Thematic Apperception Test (TAT). Professional Psychology: Research and Practice, 29, 621-622.

Garb, H. N. , Florio, C. M., & Grove, W. M. (1998). The validity of the Rorschach and the Minnesota Multiphasic Personality Inventory: Results from meta-analyses. Psychological Science, 9, 402-404.

Garb, H. N. , Florio, C. M. , & Grove, W . M . (1999). The Rorschach controversy: Reply to Parker, Hunsley, and Hanson. Psychological Science, 10, 293-294.

Gronnerod, C . (1999). Rorschach interrater agreement estimates: An empirical evaluation. Scandinavian Journal of Psychology, 40, 115-120.

Groth-Marnat, G. , & Roberts, L . (1998). Human figure drawings and house tree person drawings as indicators of self-esteem: a quantitative approach. Journal of Clinical Psychology, 54,(2), 219-222.

Groth-Marnat, G . (1999). Handbook of clinical Assessment, third edition. New York: John Wiley & Sons Inc.

Guildford, J. P. (1954). Psychometric methods. London: McGraw-Hill Book Company.

Handler, L., & Habenicht, D. (1994). The kinetic family drawing technique: a review of the literature. Journal of personality assessment, 62(3), 440-464.

Hibbard, S., Farmer, L., Wells, C., Difillipo, E., Barry, W., Korman, R., & Sloan, P. (1994). Validation of Cramer’s Defense Mechanism Manual for the TAT. Journal of Personality Assessment, 63, 197-210.

Hiller, J. B. , Rosenthal, R. , Bornstein, R. F. , Berry, D. T. R. , & Brunell-Neuleib, S . (1999). A comparative meta-analysis of Rorschach and MMPI validity. Psychological Assessment, 11, 278-296.

Joiner, T. E. , Schmidt, K. L. , & Barnett, J. (1996). Size, detail, and line heaviness in children’s drawings as correlates of emotional distress: (more) negative evidence. Journal of personality assessment, 67(1), 127-141.

Kamphaus, R. W. , & Pleiss, K. L (1991). Draw a person techniques: tests in search of a construct. Journal of school psychology, 29, 395-401.

Karon, B.P . (1978). Projective tests are valid. American Psychologist, 33, 764-765.

Keiser, R.E., & Prather, E.N. (1990). What is the TAT? A review of ten years of research. Journal of Personality Assessment, 55(3&4), 800-803.

Klopfer, W. F. , & Taulbee, E. (1976). Projective tests. Annual review of Psychology, 27, 543-567.

Laroche, N. , & Corveleyn, J. (1986). Enkele bedenkingen omtrent de basisprincipes van Rorschachs onderzoeksmethode: Vorm en inhoud. Tijdschrift voor Klinische Psychologie, 16(3), 132-147.

Lilienfeld, S. O. , Wood, J. M., & Garb, H. N. (November 2000). The scientific status of projective techniques. Psychological science in the public interest, 1 (2), 27-66.

Lipgar, R. M. (1992). The problem of R in the Rorschach: The value of varying responses. Journal of Personality Assessment, 58, 223-230.

Masling, J. (1960). The influence of situational and interpersonal variables in projective testing. Psychological Bulletin, 57, 65-85.

Masling, J. (1997). On the nature and utility of projective tests. Journal of Personality Assessment, 69, 257-270.

McClelland, D.C., Atkinson, J.W., Clark, R.A., & Lowell, E.L. (1953). The achievement motive. NY: Appleton-Century-Crofts.

Messick, S. (1993). Validity. In Linn, R.L. (Eds.), Educational measurement (pp 13-103) (3^rd ed). Washington, DC: Oryx press.

Meyer, G. J. (1992). Response frequency problems in the Rorschach: Clinical and research implications with suggestions for the future. Journal of Personality Assessment, 58, 231-244.

Meyer, G. J. (1993). The impact of response frequency on the Rorschach constellation indices and on their validity with diagnostic and MMPI-2 criteria. Journal of Personality Assessment, 60, 153-180.

Meyer, G. J. (1997a). Assessing reliability: Critical corrections for a critical examination of the Rorschach Comprehensive System. Psychological Assessment, 9, 480-489.

Meyer, G. J. (1997b). Thinking clearly about reliability: more critical corrections regarding the Rorschach Comprehensive System. Psychological Assessment, 9, 495-498.

Meyer, G. J. (2000a). Incremental validity of the Rorschach Prognostic Rating Scale over the MMPI Ego Strength Scale and IQ. Journal of Personality Assessment, 74, 356-370.

Meyer, G. J. (2000b). On the science of Rorschach Research. Journal of Personality Assessment, 75, 46-81.Nunnaly, J.C. (1967). Psychometric theory. London: McGraw-Hill Book Company.

Parker, K. C. H. , Hanson, R. K. , & Hunsley, J. (1988). MMPI, Rorschach and WAIS: A meta-analytic comparison of reliability, stability, and validity. Psychological Bulletin, 103, 367-373.

Riethmiller, R. J. , & Handler, L. (1997). Problematic methods and unwarranted conclusions in DAP research: suggestions for improved research procedures. Journal of personality assessment, 69(3), 459-475.

Riethmiller, R. J. , & Handler, L. (1997). The great figure drawing controversy: the integration of research and clinical practice. Journal of personality assessment, 69(3), 488-496.

Ritzler, B. (1995). Putting your eggs in the content analysis basket: a response to Aronow, Reznikoff, and Moreland. Journal of Personality Assessment, 64, 228-234.

Scribner, C. M. & Handler, L. (1987). The interpreter’s personality in draw-a-person interpretation: a study of interpersonal style. Journal of personality assessment, 51(1), 112-122.

Sechrest L. (1963). Incremental validity: A recommendation. Educational and Psychological Measurement, 12, 153-158.

Sechrest, L. , & Wallace, J. (1964). Figure drawings and naturally occurring events: elimination of the expansive euphoria hypothesis. Journal of educational psychology, 55, 42-44.

Smith, D., & Dumont, F. (1995). A cautionary study: unwarranted interpretations of the draw-a-person test. Professional psychology: research and practice, 26, 298-303.

Spangler, W.D. (1992). Validity of questionnaire and TAT measures of need for achievement: Two meta-analyses. Psychological Bulletin, 112, 140-154.

Swensen, C. H. (1968). Empirical evaluations of human figure drawings: 1957-1966. Psychological bulletin, 70, 20-44.

Tharinger, D. J. , & Stark, K. (1990). A qualitative versus quantitative approach to evaluating the draw-a-person and kinetic family drawing: a study of mood- and anxiety-disorder children. Psychological assessment: a journal of consulting and clinical psychology, 2, 365-375.

’t Hart , H., van Dijck, J., de Goede, M. Jansen, W., & Teunissen, J. (1998). Onderzoeksmethoden. Amsterdam: Boom.

Thomas, G. V., & Jolley, R. P. (1998). Drawing conclusions: a re-examination of empirical and conceptual bases for psychological evaluation of children form their drawings. British journal of clinical psychology, 37, 127-139.

Van Audenhove, C., & Stinissen, J. (1981). Handleiding bij de Thematic Apperception Test. Leuven: Niet-gepubliceerde uitgave.

Vander Steene, G., & Stinissen, J. (1976). Inleiding tot de Rorschach-techniek naar het systeem van Klopfer. K. U. Leuven: Niet-gepubliceerde uitgave.

Van Engeland, H. (2000). Autisme en psychosen. In Vandereycken, W., Hoogduin, C.A.L., & Emmelkamp, P.M.G. (Eds.), Handboek psychopathologie (pp469-490). Houten: Bohn Stafleu Van Loghum.

Weiner, I.B. (1996). Some observations on the validity of the Rorschach Inkblot Method. Psychological Assessment, 8, 206-211.

Weiner, I.B. (1997). Current status of the Rorschach Inkblot Method. Journal of Personality, 68, 5-19.

Westen, D. (1991). Clinical assessment of object relations using the TAT. Journal of Personality Assessment, 56, 56-74.

Westen, D., Lohr, N., Silk, K.R., Gold, L., & Kerber, K. (1990). Object relations and social cognition in borderlines, major depressives, and normals: A Thematic Apperception Test analysis. Psychological Assessment, 2, 355-364.

Winter, D.G., & Stewart, A.J. (1977). Power motive reliability as a function of retest instructions. Journal of Consulting and Clinical Psychology, 45, 436-440.

Wood, J. M., Nezworski, M. T., & Stejskal, W. J. (1996a). The Comprehensive System for the Rorschach: A critical examination. Psychological Science, 7, 3-10.

Wood, J. M., Nezworski, M. T., & Stejskal, W. J. (1996b). Thinking critically about the Comprehensive System for the Rorschach. A reply to Exner. Psychological Science, 7, 14-17.

Wood, J. M., Nezworski, M. T., & Stejskal, W. J. (1997). The reliability of the Comprehensive System for the Rorschach: A comment on Meyer (1997). Psychological Assessment, 9, 490-494.

Wood, J.M., Lilienfield, S.O., Garb, H.N., & Nezworski, M.T. (2000). The Rorschach Test in clinical diagnosis: A critical review, with a backward look at Garfield (1947). Journal of clinical psychology, 56, 395-430.

[1] De oorspronkelijk instructie van Rorschach was: “Was könnte dies sein?” (de Zeeuw, 1995).

[2] De onderzochte mag zoveel antwoorden geven als hij of zij wil. Het totale aantal antwoorden op alle vlekken wordt met het symbool ‘R’ aangegeven (de Zeeuw, 1995). Rond ‘R’ zal er later een hevige discussie ontstaan (zie later).

[3] De vierde combinatie, perceptueel-ideografisch, heeft zich nooit echt ontwikkeld (Aronow et al., 1995).

[4] In de VSA werden vooral de systemen van S. Beck en B. Klopfer populair. In Europa was deze rol weggelegd voor E. Bohm (de Zeeuw, 1995).

[5] Deze normeringsgegevens zijn enkel geldig voor de Amerikaanse samenleving. Om toegepast te kunnen worden in andere delen van de wereld is uitgebreider onderzoek noodzakelijk.

[6] Uit een studie van Shaffer, Erdberg en Haroian (1999) blijkt dat de normeringsgegevens van Exner significante discrepanties vertonen voor verschillende belangrijke Rorschach variabelen. Een follow-up-studie van Wood, Nezworski, Garb en Lilienfeld (in press) bevestigt deze bevindingen.

[7] Exner, J. E. (1993). The Rorschach: A comprehensive system: Vol. 1. Basic foundations (3rd ed.). New York: Wiley.

[8] Neem als voorbeeld 2 codeerders die een groot aantal Rorschach protocollen op toeval coderen. Stel dat variabele X in 5% van de antwoorden daadwerkelijk aanwezig is. Het zou kunnen voorkomen dat de 2 codeerders onafhankelijk van elkaar in 5% van de antwoorden variabele X onderkennen. Bij het op toeval coderen bestaat er dus een kans van 0.0025 (0.05 x 0.05) dat beide codeerders besluiten dat X aanwezig is in een bepaald antwoord en er bestaat een kans van 0.9025 (0.95 x 0.95) dat beide codeerders besluiten dat X afwezig is in een bepaald antwoord. Hieruit volgt dat enkel op basis van toeval alleen een percentage overeenkomst van 0.9050 (0.0025 + 0.9025) verwacht kan worden.

[9] Major Depressive Disorder, Posttraumatic Stress Disorder, anxiety disorders other than PTSD, Dissociative Identity Disorder, Dependent, Narcissistic, or Antisocial Personality Disorders, Conduct Disorder, or psychopathy. (Wood et al. 2000a)

[10] Hoewel men vaak heeft getracht hier verandering in te brengen, moeten we toch enkele kanttekeningen aanbrengen (Lilienfeld et al., 2000). De aanpassing van de vergelijkende populaties moeten bruikbaar zijn en moet cross-cultureel gebeuren.

[11] De Zin Invultest bijvoorbeeld lijkt vaak nog te veel op een vragenlijst.