Meta-analyse over de psychometrische eigenschappen van enkele veelgebruikte projectieve technieken. (Lic. Peeters, Tim; Cayenberghs, Karen; Debock, Karel; Schouten, Ben en Wilderjans, Tom) |
home | lijst scripties | inhoud |
1. Algemene inleiding
1.1 Inleiding projectieve technieken
In de psychodiagnostiek
wordt gebruik gemaakt van twee soorten technieken. Naast vragenlijsten worden
projectieve technieken veelvuldig toegepast om een diagnostisch oordeel te
maken. In deze paper gaan we dieper in op projectieve technieken, hun
eigenschappen, hun pluspunten en tekortkomingen.
Projectieve
technieken maken een aparte groep uit in het psychodiagnostisch arsenaal. Ze
kunnen negatief gedefinieerd worden door ze te contrasteren met de overige
diagnostische technieken, b.v. de vragenlijsten (De Boeck, 1999). Lilienfeld,
Wood en Garb (2000) daarentegen geven een beschrijvende definitie wanneer zij
projectieve technieken omschrijven als een geheel van ambigue stimuli waarbij
gevraagd wordt om deze stimulus te verduidelijken (b.v. het vertellen van een
verhaal, antwoorden geven op open vragen…).
De projectieve
hypothese vormt de bestaansreden van de projectieve technieken. Volgens deze
hypothese projecteren mensen aspecten van hun persoonlijkheid in hun ‘(test-)
gedrag’ wanneer hen gevraagd wordt ongestructureerde stimuli te verduidelijken
/ interpreteren. Door de gedragingen die gesteld worden te analyseren, kunnen
allerlei inferenties over iemands persoonlijkheid gemaakt worden. De term
‘projectie’ is afkomstig van S. Freud (1911) waarmee hij een defensiemechanisme omschreef waardoor patiënten hun negatieve persoonlijkheidseigenschappen op
een onbewuste wijze in andere personen konden plaatsten. Binnen de context van
de projectieve technieken heeft de term ‘projectie’ een veel ruimere betekenis
gekregen. Projectie duidt hier niet meer op het defensiemechanisme maar op een
algemeen onderliggend mechanisme in iedere mens.
De projectieve
methode kan dus omschreven worden als een psychodiagnostische methode, waarbij
de onderzochte in het vervullen van de opdracht een grote mate van vrijheid
krijgt, zodat bepaalde affectieve en conatieve aspecten van zijn
persoonlijkheid op indirecte wijze uit zijn of haar gedrag en resultaten
blijken (de Zeeuw, 1995). De projectieve techniek is dan als het ware een
scherm waarop de mensen hun ‘gevoelens’ kunnen projecteren waardoor de
onderzoeker inzicht kan verschaffen in de ‘de dark side’ van de
persoonlijkheid. De onderliggende assumptie luidt dat er zo een globale
beoordeling inzake de onderliggende persoonlijkheid van de onderzochte gemaakt
wordt. Een betere term dan ‘projectietechnieken’ is ‘expressietechnieken (De
Zeeuw, 1995).
De verschillende
projectieve technieken hebben vier gemeenschappelijke kenmerken.Ten eerste zijn
de aangeboden stimuli zijn vaag en ambigu. Daarnaast is de respons van de
onderzochte op de stimuli is ongestructureerd. Vervolgens is er ook sprake van
vermomming van de doelstellingen van de techniek. De geteste persoon weet niet
wat er gemeten wordt, waardoor er geen sociaal wenselijk gedrag optreedt.
Daarom wordt het geheel van projectieve technieken ook wel een indirecte
methode genoemd, in tegenstelling tot de vragenlijsten die eerder op een
directe manier pijlen naar de angsten, wensen en verlangens van de
ondervraagde. Tenslotte geven Lilienfeld et al. (2000) aan dat zo bewuste
verdedigingsmechanismen bij het antwoorden omzeild worden.
Alle projectieve
technieken baseren zich op een interpretatief proces om betekenis te geven aan
het geobserveerde gedrag. Men kan zich hier dan ook afvragen of er in het
scoren niet evenveel projectie aanwezig is als in de gegeven antwoorden van de
proefpersonen (tegenoverdracht).
Hiermee kan de
link gelegd worden met het onderscheid dat er gemaakt wordt tussen een kwantitatieve
en een kwalitatieve benadering van de verschillende technieken Bij een
kwantitatieve benadering probeert men de bekomen antwoorden op het materiaal op
een formeel-systematische en kwantificerende manier te omschrijven en
vervolgens te interpreteren. Bij de kwalitatieve benadering poogt men op een
systematische wijze een inhoudelijke interpretatie te maken (Groth-Marnat,
1999; Laroche & Corveleyn, 1986).
In navolging van
Lindzey (1959) zullen de we een onderscheid maken tussen verschillende soorten
van projectieve technieken, nl. (1) associatie b.v. de Rorschach-vlekkentest,
(2) de constructie b.v. Draw a Person van Machover, (3) de aanvulling b.v. de
Zinaanvullingstest van Rotter, (4) de expressie b.v TAT en tenslotte (5) de
rangschikking en selectie b.v. Color Test van Luscher. Deze classificatie is
gebaseerd op de verschillende typen van antwoorden.
In deze paper zullen we ons focussen op de belangrijkste projectieve technieken: (a) de Rorschach-vlekkentest, (b) de TAT en (c) de Human Figure Drawings. Er zijn twee redenen waarom we ons beperken tot deze drie technieken. Het zijn de meest gebruikte projectieve technieken. Een onderzoek naar 21 projectieve methoden, gemeten aan de aantallen researchpublicaties in tien belangrijke Amerikaanse tijdschriften (Crenshaw, 1968) wijst uit dat de Rorschach-vlekkentest en de TAT de meest beschreven methoden uit de projectieve technieken waren. Daarnaast is er in de huidige literatuur het meest te vinden over deze drie methoden wat betreft methodologische aspecten. We focussen ons op de methologische aspecten van de projectieve technieken. We beginnen met een korte omschrijving van de verschillende projectieve technieken en geven daarbij hun psychometrische eigenschappen. Tenslotte geven we een samenvatting over de wetenschappelijke status van de technieken en enkele opmerkingen
1.2 Inleiding methodologische aspecten
We gaan eventjes
kort ingaan op de methodologische criteria die gehanteerd worden bij het nagaan
van de wetenschappelijke status van projectieve technieken.
Eén van de
belangrijkste criteria is dat van de validiteit, hetgeen verband houdt met de
vraag ‘Wat onderzoekt deze projectieve techniek?’ Indien we niet een redelijk
juist antwoord op deze vraag kunnen geven, zal de projectieve methode
waardeloos zijn voor de clinici die streven om iets zinnigs over mensen te
weten te komen. De validiteit is het allerbelangrijkste punt bij het opstellen
en toepassen van alle soorten tests. Deze geldigheid van een test wordt
uitgedrukt in een validiteitcoëfficiënt.
Er zijn
verschillende categorieën binnen validiteit.
Eerst en vooral
heeft men constructvaliditeit of begripsvaliditeit, hetgeen een analyse is van
attributen die met het testresultaat in verband staan, of zij nu behoren tot
het bedoelde of het niet – bedoelde. Dit onderzoek loopt via de correlaties die
testvariabele heeft met andere variabelen. Men bekomt een netwerk van
correlaties. Er zijn twee strategieën: (1) een nomologisch netwerk (Cronbach
& Meehl, 1955) en (2) een multitrek – multimehode matrix (Campbell &
Fiske, 1959).
Bij bespreking
van testen kan men soms ook vinden dat nieuwe testen worden gevalideerd tegen
de resultaten van soortgelijke reeds bestaande testen. Dit noemt men de
congruente validiteit. Ook wordt er gezocht naar hun ongelijksoortigheid, dit
is dan de concurrente validiteit.
Voorts spreekt
men ook van incrementele validiteit, dit heeft te maken met het toenemen van de
validiteit (increment is aangroei of toename).
Voegt de test nog extra toe?
Bij
inhoudsvaliditeit wordt de mate nagegaan waarin testinhoud of testgedrag
representatief is voor een breed domein.
Predictieve
validiteit of voorspellende validiteit wordt nagegaan wanneer een test in
hoofdzaak gebruikt wordt om te kunnen voorspellen.
De uiterlijke
validiteit (face validity) is eigenlijk louter een gevoelskwestie. Testen
worden gelanceerd die voor het gevoel van de ontwerper een bepaald facet
onderzochten, omdat zij daar uiterlijk overeenkomsten mee hadden, zonder dat de
validiteit echt nader wordt onderzocht.
Op de tweede
plaats in orde van belangrijkheid komt de betrouwbaarheid. We kunnen hierbij
opnieuw ingaan van een vraagstelling, namelijk ‘Hoe nauwkeurig of hoe
consequent meet een projectieve techniek datgene wat zij meet?’ Wanneer iemand
een test aflegt, kunnen immers tal van omstandigheden zijn score beïnvloeden,
die geheel los staan van de vaardigheid of de persoonlijke eigenschap waarvoor
de test is ontworpen.
Er zijn net
zoals bij validiteit verschillende soorten van betrouwbaarheid te
onderscheiden. Dé betrouwbaarheid op zich bestaat niet, er zijn verschillende
types van betrouwbaarheid. De betrouwbaarheid wordt uitgedrukt in een
correlatiecoëfficiënt.
Zo heeft men
interbeoordelaarsbetrouwbaarheid (interscorerbetrouwbaarheid), dit is de mate
van objectiviteit bij scoring van de test en de onderling gelijke wijze waarop
testafnemers hun taak verrichten.Vooral bij projectieve testen en
observatietesten is deze coëfficiënt van belang. Hij moet tenminste het niveau
van r=.90 hebben.
Men kan ook de
betrouwbaarheid opvatten als de validiteit van de test t.o.v zichzelf. Dit is
de stabiliteit van de test of de test – hertest betrouwbaarheid.
Zeer frequent
als schatting van de testbetrouwbaarheid is het gebruik van de coëfficiënt van
interne consistentie. Er zijn twee maten:
de Kuder – Richardson voor nominaal niveau en de Cronbach alpha voor
intervalniveau. Deze interne consistentie geeft aan in hoeverre de items
homogeen of consistent zijn. Dit wordt niet uitgedrukt in een
correlatiecoëfficiënt.
Voor de praktijk
van het testonderzoek is het ook vereist dat een test voorzien moet zijn van
normen. De individuele testprestaties worden beoordeeld in relatie tot de
resultaten van andere personen van de populatie, waartoe de onderzochte moet
behoren. De normen moeten zodanig zijn dat een ondubbelzinnige kwantificering
of kwalificering van het testresultaat mogelijk is. Dit heeft tot doel om de
subjectiviteit van de onderzoeker zoveel mogelijk te reduceren.
Het is in het algemeen een langdurige en moeilijke opgave om de wetenschappelijke status na te gaan van testen.
2. Wetenschappelijke status van de Rorschach Inkblot Test
2.1 Inleiding
De Rorschach Inkblot Test (1921), die volgens de indeling van Lindsey tot de associatietechnieken behoort (Lilienfeld et al., 2000), had oorspronkelijk de bedoeling om de fantasie van kinderen te onderzoeken. Het is pas door toedoen van S. Hens, die met een eenvoudige vlekkentest psychiatrische patiënten onderzocht, dat Rorschach zijn Inkblot Test ontwikkeld heeft tot een algemene persoonlijkheidstest (de Zeeuw, 1995).
De Rorschach Inkblot Test maakt gebruik van 10 kartonnen kaarten waarop tegen een witte achtergrond een inktvlek, die ongeveer symmetrisch is, afgedrukt staat. 5 vlekken zijn enkel in zwart-wit weergegeven, terwijl de andere 5 vlekken ook kleur bevatten. De 10 kaarten worden na elkaar aangeboden en bij elke kaart wordt aan de onderzochte gevraagd ‘wat dit zou kunnen zijn’.[1] De antwoorden van de onderzochte worden nauwkeurig genoteerd (d.i. het protocol).[2] Vervolgens worden de antwoorden geformaliseerd in categorieën en gescoord met speciale lettersymbolen (d.i. signeren). Tenslotte volgt er een kwantificering (de Zeeuw, 1995).
Alhoewel de vereiste leeftijd 5 jaar bedraagt, wordt in de klinische praktijk de test nauwelijks gebruikt voor kinderen jonger dan 14 jaar. Lilienfeld et al. (2000) vermelden dat de afnameprocedure ongeveer 45 minuten in beslag neemt en dat ongeveer 2 uur besteed wordt aan het scoren en interpreteren van de antwoorden. De afnameprocedure kan meer of minder tijd in beslag nemen naargelang de toestand van de onderzochte en zijn neiging om veel of weinig antwoorden te geven. Ook de aanwezigheid van een bepaalde soort pathologie kan de afnametijd beïnvloeden. De afname gebeurt individueel tussen de patiënt en de afnameleider.
Verschillende benaderingen
tegenover de ‘Rorschach technique’ (Aronow, Reznikow & Moreland, 1995)
kunnen beschreven worden. Opvallend
hierbij is het gebruik van het woord ‘Technique’ in plaats van ‘Test’ (zie verder).
Aronow et al. (1995) beschrijven drie benaderingen die ontstaan door een
combinatie van twee assen nl. de ideografisch-nomothetisch as en de
perceptueel-inhoud as. De drie benaderingen zijn[3]: de perceptueel-nomothetische, de
inhoud-nomothetische en de inhoud-ideografische. De nomothetische benadering
heeft als doel het ontdekken van algemeen geldige wetten. De ideografische
benadering daarentegen legt de nadruk op een grondige studie van de (relatieve)
unieke kwaliteiten van het individu. Bij de perceptueel-inhoud as legt de perceptueel
benadering de nadruk op hoe een subject de verschillende aspecten zoals
locatie, vorm en determinanten waarneemt. De inhoud benadering neemt wat
het subject waarneemt als het cruciale element.
De perceptueel-nomothetische
benadering heeft zijn grondvesten in de visie van Hermann Rorschach. Aronow et
al. (1995)
citeren zijn werk Psychiadiagnostik (1912, 1942): “In scoring the answers given
by subjects, the content is considered last. It is more important to study the
function of perception and apperception”.
De
jaren na zijn publicatie neemt Rorschach echter een meer inhoudsgericht en
projectief psycho-analytisch standpunt in. De scholen in Amerika daarentegen
bleven nog lang trouw aan de oorspronkelijk perceptueel-nomothetische
benadering.
De inhoud-nomothetische
benadering beschrijven Aronow et al. (1995) in het kader van een enorme groei
in het gamma van de inhoudsschalen voor scoring van de Rorschach rond 1940. Dit
leidde tot een ‘boom’ van onderzoek op dit gebied in de jaren zestig en
zeventig. Aronow et al. (1995) verwijzen hierbij naar hun eigen review (Aronow
& Reznikoff, 1976). Deze verwijzing wordt hen niet in dank afgenomen door
Ritzler (1995) omdat in de review geconcludeerd wordt dat scores op basis van
inhoudsschalen krachtiger zijn dan perceptuele scores.
De inhoud-ideografische
benadering tenslotte legt de focus op de inhoud van de antwoorden en bijkomende
verbale informatie. Dit wordt dan beschouwd als toegangspoort tot de unieke
wereld van het individu en in het bijzonder tot het zelfconcept van dat
individu.
Aronow et al. (1995) nemen naast
de beschrijving ervan, tegenover deze verschillende benaderingen een duidelijk
standpunt in. De inhoud-ideografische benadering is volgens hen het meest
consistent aan de visie van de Rorschach Inkblot Test als een projectieve
techniek. Ze vinden dat deze benadering het meest tegemoet komt aan de
‘strenghts’ van de Rorschach. Daarom verkiezen ze in tegenstelling tot H.
Rorschach zelf, de term ‘Technique’ in plaats van ‘Test’. In het licht van
conceptuele helderheid reserveren ze de term ‘Test’ voor instrumenten die
nomothetisch van aard zijn, terwijl ‘Technique’ volgens hen gebruikt wordt bij
ideografisch georiënteerde instrumenten zoals de Rorschach.
Dit uitdrukkelijke standpunt werd echter onder vuur genomen.
Ritzler (1995) schrijft dat deze inhoudsgerichte benadering onvoldoende de
nadruk legt op het belang van informatie die verkregen wordt via een empirisch
gefundeerde en gekwantificeerde methode van interpretatie van de Rorschach. Ook
het argument dat de Rorschach in de eerste plaats een projectieve techniek is,
wordt door Ritzler (1995) weerlegd.
Na Rorschach hebben anderen gepoogd een eigen scoringssysteem uit te
werken.[4] Volgens Lilienfeld et al. (2000) echter
werd de Rorschach Inkblot Test (1921) tijdens het midden van de vorige eeuw
geregeld bestookt met wetenschappelijke kritieken. Deze kritieken verweten de
Rorschach Inkblot Test (1921) een gebrek aan gestandaardiseerde
afnameprocedures. Tevens beweerden deze kritieken dat de normen van de
Rorschach Inkblot Test (1921) niet adequaat waren en dat enige sluitende
evidentie voor de betrouwbaarheid en validiteit totaal ontbrak. Het is binnen
deze context dat J.E. Exner zijn The Rorschach: A Comprehensive System
(1974) ontwikkeld heeft. Exner had met zijn ‘Comprehensive System’ de bedoeling
om de Rorschach Inkblot Test (1921) van een stevige wetenschappelijke en
psychometrische basis te voorzien.
Belangrijk
hierbij is de positie die Exner innam tegenover de Rorschach Inkblot Test. In
tegenstelling tot Hermann Rorschach, bleef Exner trouw aan de aanvankelijke
perceptueel-nomothetische benadering. Exner (vermeld in Aronow et al., 1995)
beoordeelt de Rorschach Inkblot Test als ‘niet geschikt voor het verzamelen van
projectieve data’. Volgens hem kan de Rorschach Inkblot Test bezwaarlijk een
projectief instrument genoemd worden. Een logisch scenario bij deze houding,
zou een poging zijn om het instrument om te vormen tot een zo objectief
mogelijke test. Dit is juist wat ‘The Comprehensive System’ heeft proberen te
verwezenlijken, aldus Aronow et al. (1995).
Om een goed beeld te krijgen van de wetenschappelijke status van de Rorschach Inkblot Test (1921) lijkt het ons dus aangewezen om de wetenschappelijke en psychometrische kwaliteiten van dit meest verbreide scoringssysteem te onderzoeken, nl. Exners Comprehensive System.
2.2 Wetenschappelijke status van het Comprehensive System
Volgens
Lilienfeld et al. (2000) heeft Exners Comprehensive System de Rorschach
voorzien van gedetailleerde (gestandaardiseerde) regels voor afname en scoring.
Tevens heeft Exner ervoor gezorgd dat normeringstabellen voor
kinderen en volwassenen voorhanden zijn. Tenslotte bestaat Exners bijdrage in
het rapporteren van positieve resultaten van verschillende betrouwbaarheids- en
validiteitsstudies.
Ondanks deze inspanningen van Exner blijven verschillende auteurs overtuigd van de lage psychometrische kwaliteiten van de Rorschach Inkblot Test (1921). In wat volgt bekijken en analyseren we de discussie tussen de voor- en tegenstanders van Exners Comprehensive System. Hierbij bespreken we de adequaatheid van de normen, de betrouwbaarheid en de validiteit. Tevens worden enkele hete hangijzers uit het onderzoek grondig besproken.
2.2.1 Normering
Opdat een testscore op een wetenschappelijke manier zou kunnen geïnterpreteerd worden, moet deze vergeleken worden met de scores van een referentiegroep. Bij de traditionele Rorschach Inkblot Test (1921) ontbreken dergelijke normeringsgegevens totaal. Exner heeft de Rorschach Inkblot Test (1921) voorzien van normeringsgegevens op basis van zijn eigen scoringssysteem voor Amerikaanse volwassenen en kinderen die geen deel uitmaken van de klinische patiëntenpopulatie. Verder heeft Exner ook statistische tabellen berekend voor verschillende klinische referentiegroepen, b.v. patiënten met schizofrenie.[5]
In de literatuur echter zijn deze normeringsgegevens van Exner onderwerp geweest van hevige kritiek. Op de eerste plaats opperen sommige auteurs het verwijt dat deze normeringsgegevens achterhaald zijn en dat ze gebaseerd zijn op een eerder kleine steekproef in vergelijking met gevestigde psychologische instrumenten zoals b.v. de WAIS en de MMPI-2. Een fundamenteler verwijt bestaat erin dat onderzoek aangewezen heeft dat de normeringsgegevens van Exner niet representatief zijn voor de Amerikaanse bevolking en dat ze de neiging tot overpathologisering vertonen, d.w.z. verschillende volwassenen die als normaal gepercipieerd worden, zijn buitengewoon pathologisch wanneer ze vergeleken worden met de normeringsgegevens van Exner.[6] In de literatuur omtrent de Rorschach Inkblot Test (1921) wordt hiervoor geen plausibele verklaring gegeven (Lilienfeld et al., 2000).
In de literatuur wordt ook melding gemaakt van het probleem van de culturele generaliseerbaarheid van Exners normeringsgegevens. Alhoewel voorstanders van de Rorschach Inkblot Test (1921) beweren dat deze test geschikt is voor het onderzoeken van Amerikaanse minderheden en niet-Amerikanen, kan er in de literatuur nauwelijks onderzoeksevidentie voor deze hypothese teruggevonden worden. Onderzoeksevidentie daarentegen die tegen de hypothese ingaat is massaal aanwezig. Tevens bestaat er zo goed als geen onderzoek naar de differentiële validiteit van Rorschach indexes over verschillende raciale en culturele groepen (Lilienfeld et al., 2000)
2.2.2 Betrouwbaarheid
Bij de studie van de betrouwbaarheid van Exners Comprehensive System maken we een onderscheid tussen interscorerbetrouwbaarheid (interrater reliability) en test-hertest-betrouwbaarheid. Onderzoek naar de homogeniteit of interne consistentie wordt bij de Rorschach Inkblot Test niet uitgevoerd (de Zeeuw, 1995).
2.2.2.1 Interscorerbetrouwbaarheid
Een voorwaarde om op een wetenschappelijk verantwoorde manier gebruik te maken van de Rorschach Inkblot Test bestaat erin dat verschillende codeerders tot dezelfde coderingen en conclusies moeten komen bij het signeren van eenzelfde protocol.
Lilienfeld et al. (2000) vermelden onderzoeksliteratuur waarin beweerd wordt dat de interscorerbetrouwbaarheid van de variabelen van het Comprehensive System uniform boven de 0.85 gelegen is. Deze gegevens worden ondersteund door verschillende tabellen die terug te vinden zijn in Exners boek uit 1993[7] waarin de interscorerbetrouwbaarheid berekend wordt in de vorm van percentage van overeenkomst (Wood, Nezworski & Stejskal, 1996a). Volgens de Zeeuw (1995) is Exner in zijn boek erg nauwgezet in het geven van gedetailleerde aanwijzingen voor de scoringen en lange lijsten met scoringsvoorbeelden. De auteur besluit dat mede hierdoor de interscorerbetrouwbaarheidsindices hoog zijn (0.90 en hoger voor de diverse variabelen). De auteur voegt er wel aan toe dat dit enkel geldt wanneer de Rorschach Inkblot Test (1921) afgenomen wordt door zeer geoefende diagnosten. De enorme complexiteit van Exners scoringssysteem wordt hier ter verantwoording ingeroepen.
Volgens Lilienfeld et al. (2000) echter bestaan er verschillende recente studies die aantonen dat slechts de helft van de variabelen van het Comprehensive System een interscorerbetrouwbaarheid, berekend d.m.v. kappa-coëfficiënten of intra-klasse-correlaties (zie later), bezitten van 0.85 of hoger. Tevens tonen deze studies aan dat de interscorerbetrouwbaarheidsindices van verschillende vaak gebruikte CS-variabelen, v.b. SCZI (indicator voor schizofrenie), Adjusted D (indicator voor zelfcontrole onder stress) en X-% (indicator voor perceptuele en mentale vervorming), eerder laag is.
Wood, Nezworski en Stejskal (1996a) hebben enkele fundamentele kritieken ten aanzien van Exners methodologie voor het berekenen van de interscorerbetrouwbaarheidsindices van particuliere CS-variabelen.
Als eerste kritiek opperen zij dat verschillende auteurs reeds aangetoond hebben dat het percentage overeenkomst in sommige gevallen een inadequate en misleidende maat is voor interscorerbetrouwbaarheid. Deze betrouwbaarheidsmaat maakt immers geen correctie voor overeenkomst bij toeval, wat soms kan leiden tot een overschatting van de ware interscorerbetrouwbaarheid. Het kan m.a.w. in sommige gevallen, b.v. bij een extreme basiskans van voorkomen van een variabele, voorkomen dat beoordelaars een vrij hoog percentage van overeenkomst bereiken, alhoewel ze een protocol totaal op toeval gecodeerd hebben.[8] Wood, Nezworski en Stejskal (1996a) raden dan ook aan om meer geschikte statistieken te gebruiken, zoals b.v. kappa-coëfficiënten, phi, Spearman’s rho of Pearson’s r, bij het berekenen van interscorerbetrouwbaarheidsindices.
De reacties op deze stelling gaan in drie richtingen. Een eerste reactie komt van Exner (1996) die stelt dat het probleem van het op toeval correct, d.w.z. de 2 beoordelaars onderkennen in een antwoord eenzelfde variabele, coderen enorm gereduceerd wordt door het feit dat ieder antwoord altijd gecodeerd wordt op tenminste vijf categorieën, dat iedere categorie uit verschillende variabelen bestaat en dat verschillende variabelen binnen één categorie gecodeerd kunnen worden voor een antwoord.
Een tweede reactie komt van Meyer (1997a) die erkent dat het percentage overeenstemming in sommige gevallen een inadequate maat voor interscorerbetrouwbaarheid is omdat deze maat de mate van geobserveerde overeenkomst niet corrigeert voor de mate van overeenkomst die puur op toeval kan verwacht worden. Volgens Gronnerod (1999) vertoont het percentage overeenkomst de neiging om, onafhankelijk van het werkelijke niveau van overeenkomst, te stijgen wanneer de basiskans van voorkomen daalt. Meyer (1997a) is het echter niet eens met de definitie van overeenkomst op toeval die Wood et al. (1996a) huldigen. Deze definitie is afgeleid van de kansdefinitie die gebruik wordt bij het berekenen van kappa-coëfficiënten, nl. de mate van overeenkomst die geobserveerd zou worden wanneer twee codeerders op toeval een reeks antwoorden zouden coderen voor een reeks variabelen waarvan men de basiskans op voorkomen kent. Het gebruik van kappa-coëfficiënten wordt echter door Meyer (1997a) op tweevoudige wijze bekritiseerd. Ten eerste stelt de auteur dat de codeerders meestal de basiskans van voorkomen van een variabele niet kennen. Wanneer twee codeerders nu onafhankelijk van elkaar tot het besluit komen dat een bepaalde variabele een extreem hoge of lage basiskans van voorkomen heeft dan wordt hun hoge mate van overeenkomst door de kappa-coëfficiënt als bijna volledig toevallig geïnterpreteerd. De kappa-coëfficiënt m.a.w. straft de codeerders door gebruik te maken van de extreme basiskans van voorkomen die zij onafhankelijk van elkaar zijn bekomen bij het coderen. Ten tweede haalt Meyer (1997a) het feit aan dat wanneer de basiskans van voorkomen zich verwijdert van 0.50, d.i. het punt van maximale variantie, eenzelfde kleine graad van niet-overeenkomst tussen codeerders de kappa-coëfficiënt sterker doet dalen. Wanneer er m.a.w. met een extreme basiskans van voorkomen gewerkt wordt, kan de kappa-coëfficiënt nooit een hoge interscorerbetrouwbaarheid aangeven. Wood, Nezworski en Stejskal (1997) verdedigen zich tegen Meyers aantekeningen door te wijzen op het feit dat er in de statistische literatuur een universele consensus bestaat dat het percentage overeenkomst geen correctie voor overeenkomst op toeval bevat, waardoor deze maat als index voor betrouwbaarheid inferieur is aan de kappa-coëfficiënt. Meyer (1997b) repliceert hierop door te stellen dat in sommige gevallen interscorerbetrouwbaarheidsschattingen op basis van de kappa-coëfficiënt inadequaat zijn. Volgens Gronnerod (1999) tenslotte is het belangrijk dat men bij de keuze van de maat voor het schatten van de interscorerbetrouwbaarheid rekening houdt met het type van data waarvan men de interscorerbetrouwbaarheid wil berekenen. Volgens hem is voor Rorschach data het percentage overeenkomst de meest gebruikelijke schattingsmethode. Deze maat kampt echter met het probleem van een extreme basiskans van voorkomen. Een switch naar de kappa-coëfficiënt is te overwegen, maar ook deze maat kampt met problemen, nl. sensitiviteit voor een lage basiskans van voorkomen. De auteur raadt aan om met correlaties, b.v. intra-klasse-correlaties, te werken.
Een derde reactie van Exner (1996) poogt de kritiek van Wood et al. te omzeilen door te argumenteren dat de methode die hij gebruikt heeft om de interscorerbetrouwbaarheidsindices te berekenen beter ‘percentage correct’ in plaats van ‘percentage overeenkomst’ zou genoemd worden. Wood, Nezworski en Stejskal (1996b) reageren hierop door te stellen dat het percentage correct, d.i. de mate van overeenkomst tussen een codeerder en de correcte coderingen, een maat is voor de accuraatheid van de codering en dat deze maat niet als evidentie kan aangebracht worden voor de interscorerbetrouwbaarheid. Zij concluderen dan ook dat, als Exner werkelijk het percentage correct heeft berekend i.p.v. percentage overeenkomst, de werkelijke interscorerbetrouwbaarheid van het Comprehensive System nog steeds onbekend is.
Een tweede kritiek van Wood, Nezworski en Stejskal (1996a) op Exners methodologie voor het berekenen van de interscorerbetrouwbaarheidsindices van particuliere CS-variabelen betreft het feit dat Exner primair percentages overeenkomst voor individuele antwoorden, b.v. het coderen van een bepaalde variabele op één antwoord, vermeldt i.p.v. totalen, b.v. het aantal malen dat een bepaalde variabele gecodeerd is geworden binnen één protocol. Het is immers op basis van deze totalen dat de Rorschach Inkblot Test klinisch geïnterpreteerd wordt. Volgens Meyer (1997a) echter is het belangrijker dat de interscorerbetrouwbaarheid van individuele antwoorden aangetoond wordt. Het doel van de interscorerbetrouwbaarheid bestaat er immers in om aan te tonen dat het Comprehensive System een systematisch en consequent coderingssysteem is. Vermits de coderingen toegekend worden op het niveau van individuele antwoorden is het erg belangrijk om interscorerbetrouwbaarheid te berekenen op dit niveau van individuele antwoorden. Meyer (1997a) beweert verder dat totalen niets meer zijn dan samengetelde coderingen van individuele antwoorden. Vermits toevallige coderingsfouten de tendens vertonen om gecompenseerd te worden wanneer zij worden samengesteld, kan aangenomen worden dat totalen per definitie meer betrouwbaar zijn dan coderingen voor individuele antwoorden. Wanneer men zich dus bij het berekenen van de interscorerbetrouwbaarheid enkel op totalen baseert, bekomt men een overschatting van de interscorerbetrouwbaarheid van de coderingen. Wood, Nezworski en Stejskal (1997) daarentegen beweren dat er geen enkel psychometrisch artikel of geen enkele gepubliceerde demonstratie bestaat waarin aangetoond wordt dat de interscorerbetrouwbaarheid van totalen noodzakelijk hoger is dan de interscorerbetrouwbaarheid van coderingen van individuele antwoorden. De reactie van Meyer (1997b) hierop is kort en krachtig, nl. er bestaan wel degelijk studies die aantonen dat de interscorerbetrouwbaarheid van totalen hoger is dan de interscorerbetrouwbaarheid van coderingen van individuele antwoorden.
Wood, Nezworski en Stejskal (1996a) wijzen erop dat er een onderscheid moet gemaakt worden tussen de ideale interscorerbetrouwbaarheid van een test en de veldinterscorerbetrouwbaarheid, d.i. de interscorerbetrouwbaarheid die aangetoond wordt door mensen in de praktijk. De auteurs halen een studie van Exner aan waarin de veldinterscorerbetrouwbaarheden verontrustend laag zijn. Exner (1996) reageert hierop door te stellen dat de resultaten van zijn onderzoek de aanleiding waren voor het verbeteren van de scoringscriteria voor bepaalde categorieën in latere werken. Een analoog onderzoek wees uit dat de percentages overeenkomst voor deze categorieën opmerkelijk verbeterd waren voor deze categorieën. Meyer (1997a) merkt verder op dat een lage veldinterscorerbetrouwbaarheid niet noodzakelijk betekent dat het coderingssysteem van het Comprehensive System onbetrouwbaar is. Er zijn immers verschillende factoren, die niets met de betrouwbaarheid van het scoringssysteem te maken hebben, die een lage veldinterscorerbetrouwbaarheid kunnen veroorzaken, b.v. slecht getrainde afnameleiders. Wood, Nezworski en Stejskal (1997) voegen hier echter ironisch aan toe dat het waar is dat men op basis van slecht afgenomen tests geen valide conclusies kan trekken m.b.t. de (ideale) interscorerbetrouwbaarheid van de test. Een valide conclusie, volgens deze auteurs, is wel dat de test, wanneer deze gebruikt wordt in een klinische setting, meer schade dan goed kan berokkenen.
2.2.2.2 Test-hertest-betrouwbaarheid
Volgens Lilienfeld et al. (2000) beweren voorstanders van de Rorschach Inkblot Test dat de test-hertest-betrouwbaarheid van verschillende variabelen van het Comprehensive System excellent is. In de literatuur echter kunnen er slechts voor 40% van de CS-variabelen studies teruggevonden worden waarin schattingen vermeld worden van de test-hertest-betrouwbaarheid van deze CS-variabelen.
Meyer (1997a) verwijt Wood et al. dat zij hun oordeel omtrent de interscorerbetrouwbaarheid van het Comprehensive System enkel baseren op twee, volgens Wood et al. (1996a) weinig overtuigende, interscorerbetrouwbaarheidsstudies. Volgens Meyer (1997a) heeft Exner in zijn boek voldoende overtuigende empirische argumenten aangehaald, in de vorm van test-hertest-coëfficiënten (bereik van 0.30 tot 0.90 en mediaanwaarde rond de 0.80), om de hypothese te ontkrachten dat codering met het CS op toeval verloopt. De kritiek op deze stelling van Exner loopt in twee richtingen.
Ten eerste beweert Lilienfeld et al. (2000) dat andere onderzoekers dan Exner steeds test-hertest-coëfficiënten voor CS-variabelen vinden die substantieel lager zijn dan deze van Exner. Lilienfeld et al. (2000) besluiten dat, wegens methodologische beperkingen i.v.m. test-hertest studies, de enige valide conclusie die men kan trekken is dat de test-hertest-betrouwbaarheid van de meeste CS-variabelen nog steeds een open vraag is die enkel kan opgelost worden d.m.v. verder onderzoek.
Ten tweede opperen Wood, Nezworski en Stejskal (1997) dat de gegevens, d.i. test-hertest-coëfficiënten, die Meyer aanhaalt op geen enkele wijze hun kritieken op de interscorerbetrouwbaarheid weerleggen. Hoge test-hertest-coëfficiënten kunnen immers niet als bewijs dienen voor hoge interscorerbetrouwbaarheidsindices omdat deze coëfficiënten niet de overeenkomst tussen codeerders onderzoeken. Meyer (1997b) stemt in met de opmerking dat test-hertest-coëfficiënten niet noodzakelijk gerelateerd zijn aan interscorerbetrouwbaarheidsindices. Lage test-hertest-coëfficiënten kunnen het gevolg zijn van zowel inconsiste scoring als van de natuur van het construct, d.i. sommige CS-variabelen kunnen veranderen over de tijd. Volgens de auteur echter vertonen de meeste studies dat de test-hertest-betrouwbaarheid van CS-variabelen excellent is. Vermits nu accurate codering deel uitmaakt van een retest-design, is het onmogelijk om hoge test-hertest-coëfficiënten te bekomen zonder reeds hoge interscorerbetrouwbaarheidsindices te hebben.
2.2.3 R-probleem
Lilienfeld et al. (2000) wijzen erop dat verschillende auteurs de afgelopen decennia aangetoond hebben dat R, d.i. het totale aantal antwoorden dat één onderzochte geeft op alle vlekken, gerelateerd is aan het totaal aantal keren dat een bepaalde CS-variabele in het protocol voorkomt. Vermits deze totalen de basis vormen voor klinische inferenties, hebben mensen met een hoge R meer kans om b.v. als agressief of depressief bestempeld te worden. Lilienfeld et al. (2000) voegen hier nog aan toe dan R hoger is in bepaalde culturele en educationele groepen en dat R positief gecorreleerd is met intelligentie. Hieruit concluderen deze auteurs dat bepaalde groepen van mensen een hoger totaal op bepaalde CS-variabelen en daardoor een hogere score voor bepaalde CS-indices van psychopathologie behalen, enkel omdat ze geneigd zijn meer antwoorden te geven op de aangeboden vlekken.
Lilienfeld et al. (2000) merken op dat sommige psychologen beweren dat men het R-probleem in het Comprehensive System kan elimineren door totalen te corrigeren voor R of door met ratio’s te werken. Wood, Nezworski en Stejskal (1996a) reageren hierop door te stellen dat er voor de meeste klinisch relevante scores en indices in het CS er niet, of slechts ten dele, gecorrigeerd wordt voor R (zie ook de bespreking van validiteit).
Volgens Lilienfeld et al. (2000) zijn er in de literatuur verschillende pogingen terug te vinden om het R-probleem op te lossen, b.v. het gebruiken van 45 inktvlekken en de onderzochte verplichten slechts één antwoord te geven of het houden bij de 10 oorspronkelijke inktvlekken en per inktvlek de onderzochte verplichten om juist 2 antwoorden te geven. Beide voorstellen echter werden maar met weinig succes in de literatuur onthaald. De meeste onderzoekers naar de Rorschach Inkblot Test en clinici immers blijken vol te houden dat het R-probleem niet bestaat, dat het geen belangrijke praktische gevolgen met zich meebrengt en dat het niet de moeite loont om oplossingen te zoeken voor het probleem (Lilienfeld et al., 2000).
2.2.4 Validiteit
Lilienfeld et al. (2000) onderscheiden voor het nagaan van de validiteit van de Rorschach Inkblot Test verschillende niveaus van benadering. Op deze verschillende niveaus is ook onze indeling voor de bespreking van validiteit gebaseerd. We beschrijven globale meta-analyses, specifieke meta-analyses, relaties met diagnoses en zelfrapporteringsgegevens, incrementele validiteit en tenslotte de factorstructuur van de Rorschach Inkblot Test.
2.2.4.1 Globale meta-analyses
Deze
meta-analyses vergelijken de gemiddelde validiteit van verschillende tests.
Meestal wordt de gemiddelde validiteit van de Rorschach Inkblot Test vergeleken
met die van de MMPI (Minnesota Multiphasic Personality Inventory) en de WAIS
(Wechsler Adult Intelligence Scale). In de literatuur (Garb, Florio &
Grove, 1998, 1999; Hiller, Rosenthal, Bornstein, Berry & Brunell-Neuleib,
1999; Parker, Hanson & Hunsley, 1988) is een stevige discussie terug te
vinden m.b.t. de methodologische aanpak en het trekken van conclusies bij de
vergelijking van de validiteit van deze drie instrumenten.
Lilienfeld et
al. (2000) formuleren vijf opmerkingen m.b.t. deze meta-analyses waarin ze de
belangrijkste issues van de discussie in de literatuur weergeven. Ten eerste is
de methodologische aanpak van deze meta-analyses erg zwak. Ten tweede wordt opgemerkt
dat elk van deze meta-analyses uitsluitend zijn gebaseerd op gepubliceerde
onderzoeken. Het probleem hierbij is dat gepubliceerde studies vaak veel
grotere effecten rapporteren dan de niet gepubliceerde studies. Dit fenomeen
staat bekend als het file drawer effect. Een derde -en in het kader van het
spreken over validiteit- erg belangrijk probleem dat wordt vermeld is het feit
dat globale meta-analyses of analyses per test weinig waarde hebben voor de
klinisch toepassing, m.a.w. de validiteit van specifieke delen van een test of
de validiteit van een specifieke toepassing kan met deze meta-analyses niet
achterhaald worden (zie verder). Een vierde opmerking betreft de gemiddelde
validiteitscoëfficiënten. In de globale meta-analyse van verschillende gepubliceerde
studies convergeren de validiteitscoëfficienten van de Rorschach Inkblot Test
op 0.30 (met een afwijking van plus of min 0.05). Dit zou er op kunnen wijzen
dat enkele Rorschach indexen een matige validiteit hebben. Toch suggereren
Lilienfeld et al. (2000) dat deze gemiddelde validiteitscoëfficiënt een
overschatting is, te wijten aan de eerder besproken methodologische zwakheden
en het file drawer effect. Als laatste wordt vermeld dat in het algemeen de
gevonden gemiddelde validiteit van de Rorschach Inkblot Test lager is dan die
van de WAIS. Andere meta-analyses suggereren bovendien dat de gemiddelde
validiteit van de Rorschach Inkblot Test in het algemeen ook lager is dan voor
de MMPI, hoewel de verschillen in dit geval niet erg groot zijn en in sommige
studies zelfs niet statistisch significant. Opnieuw waarschuwen Lilienfeld et
al. (2000) hier voor het uitsluitend gebruik van gepubliceerde studies en de
verschillende methodologische tekortkomingen.
2.2.4.2 Specifieke meta-analyses
Zoals eerder
reeds werd vermeld kunnen globale meta-analyses de validiteit van specifieke
Rorschachscores voor specifieke doeleinden niet nagaan. In dit kader zijn de
specifieke meta-analyses van belang. Hierbij concentreert men zich op de
validiteit van de Rorschach Inkblot Test of een deel ervan bij gebruik in een
specifieke context. Om begripsverwarring te voorkomen lijkt het ons daarom erg
belangrijk om dit niet uit het oog te verliezen. Voor een instrument als de
Rorschach Inkblot Test zou discussie in de literatuur veel efficiënter kunnen
verlopen als er woorden worden gewisseld over dezelfde validiteit in dezelfde
toepassing.
Strikt gesproken
is het onjuist om te vragen of het Comprehensive System valied is of niet. Het
systeem brengt een hele reeks percentages, ratio’s en scores voort en de
validiteit zou moeten nagegaan worden voor elk apart. Geen enkel artikel kan de
validiteit van alle scores in het systeem nagaan (Wood, Nezworski &
Stejskal, 1996a).
Het is dus
belangrijk om bij het onderzoek naar validiteit te focussen op een bepaalde
subset van variabelen. Bij Wood et al. (1996a) ligt die focus op een aantal
belangrijke klinische gegevens zoals psychologische symptomen of stoornissen,
graad van functioneren of graad van stress omdat de validiteit van deze
deelgebieden erg belangrijk is als je weet dat de Rorshach Inkblot Test in heel
wat klinische settings als een diagnostisch instrument wordt gehanteerd. Zonder
in te gaan op de betekenis van de afzonderlijke indexen vermelden we hier dat
Wood et al. (1996a) concluderen dat zij voor The Egocentricity Index, Adjusted
D, Depression Index en The Suïcide Constellation weinig of geen empirische
evidentie voor validiteit hebben gevonden. Nochtans hebben deze scores allemaal
een directe invloed op het nemen van beslissingen in een klinische context als
de Rorschach Inkblot Test als een diagnostisch instrument wordt gebruikt.
Lilienfeld et al. (2000) vatten andere specifieke meta-analyses van de afgelopen decennia samen. Ook hun conclusies zijn weinig bemoedigend. Uit de convergentie van verschillende specifieke meta-analyses blijkt dat er uiteindelijk nog vier succesvolle scores kunnen worden gedistilleerd, nl. TDIR (Thought Disorder Index), SCZI (Schizophrenia Index), RPRS (Rorschach Prognostic Rating Scale) en ROD (Rorschach Oral Dependency Scale). Toch worden hierbij ook vier opmerkingen geformuleerd. Enkel de SCZI behoort tot het scoringssysteem van het Comprehensive System. De validiteit van de drie overblijvende scores doet dus feitelijk niet ter zake in onze bespreking van ‘The Comprehensive System’. Ten tweede is de methodologische kwaliteit van de onderzoeken die steun geven voor de validiteit van de ROD erg zwak. Ten derde worden er vragen gesteld bij de klinische praktijk. De RPRS bijvoorbeeld maakt gebruik van erg moeilijk te hanteren of omslachtige regels. Bij onderzoek naar de validiteit van de TDIR werd slechts gebruik gemaakt van op audiocassette opgenomen Rorschachsessies. Ten slotte zijn de normen voor de TDIR, de RPRS en de ROD niet representatief of recent genoeg. De hantering van de huidige normen voor de SCZI zorgt voor een onacceptabel hoog aantal vals positieven, vooral bij kinderen. Ondanks de bemoedigende hermeneutische en kwantitatieve reviews over deze indexen blijven er dus toch problemen met de toepassing in de klinische praktijk.
2.2.4.3 Relaties met diagnoses en zelfrapporteringsgegevens
Lilienfeld et
al. (2000) beschrijven de nood aan degelijke wetenschappelijke literatuur als
reactie op de contradicties van enkele voorstanders van de Rorschach. Weiner
(1997) bijvoorbeeld beweerde nog dat de Rorschach Inkblot Test degelijke
empirisch gevalideerde indexen bevat voor het diagnosticeren van bepaalde
psychopathologieën. In zijn conclusie schrijft Weiner (1997) zelfs dat ondanks
het ruime gebruik en de validering door clinici en onderzoekers, de Rorschach
Inkblot Test nog steeds niet het welverdiende respect heeft gekregen als
degelijk psychometrisch instrument.
Twee jaar later
schrijft Weiner, (1999) in Lilienfeld et al. (2000) echter dat de Rorschach
Inkblot Test geen diagnostische test is, dat ze niet ontworpen is als
diagnostische test en in feite niet werkt als diagnostische test, zeker niet
als met een diagnose een DSM diagnose bedoeld wordt.
Lilienfeld et al. (2000) citeren letterlijk de ‘abstract’ van een eigen artikel (Wood, Lilienfeld, Garb & Nezworski, 2000a) en concluderen dat ondanks enkele positieve bevindingen, de Rorschach Inkblot Test als diagnostisch instrument weinig blijk geeft van validiteit. De positieve bevindingen zijn dat voor een aantal DSM diagnosen een relatie gevonden werd met de uitkomst van de Rorschach.[9] De negatieve bevindingen zijn dat afwijkende bewoordingen gerelateerd worden aan schizofrenie of een bipolaire stoornis zodat deze diagnosen vaak worden gesteld terwijl dit met andere diagnostische instrumenten niet het geval zou zijn.
Wat betreft de indexen voor zelfrapportering besluiten Lilienfeld et al. (2000) dat ook hier geen consistente relaties met de Rorschach Inkblot Test kunnen gevonden worden. Sommige voorstanders van de Rorschach zoals bijvoorbeeld Stricker en Gold (1999) in Lilienfeld et al. (2000) argumenteren in zo’n geval dat overeenkomst niet zinvol of wenselijk is. Met zo’n argumentatie kan aldus Lilienfeld et al. (2000) elke negatieve bevinding over de Rorschach Inkblot Test afgewimpeld worden.
Ze besluiten dat het uitblijven van correlaties tussen de Rorschach Inkblot Test met diagnoses of indexen van zelfrapportering twijfel zaait over de validiteit van de Rorschach voor de meeste doeleinden.
2.2.4.3. Incrementele validiteit
Voor alle
duidelijkheid vermelden we hier kort wat we in dit geval onder incrementele
validiteit verstaan. De incrementele
validiteit van een test is de informatie of validiteit die een test kan
toevoegen aan reeds bestaande informatie.
Een concrete vraag in een diagnostische setting zou bijvoorbeeld kunnen
zijn: Is het nuttig de Rorschach
Inkblot Test af te nemen naast de andere diagnostische instrumenten die we ter
beschikking hebben? Aangezien de
tijdrovende afname, scoring en interpretatie van de Rorschach Inkblot Test, zou
men toch een zekere incrementele validiteit verwachten.
Ook hier geven
Lilienfeld et al. (2000) een degelijk overzicht van verricht onderzoek ter
zake. Ze maken hier een onderscheid tussen klinische beoordeling en
statistische predictie. Bij de
klinische beoordeling waren er zelfs enkele studies waarin de validiteit daalde
als de Rorschach Inkblot Test werd toegegoegd.
Lilienfeld et al. (2000) vinden het verantwoord te concluderen dat er
weinig steun is voor het gebruik van de Rorschach Inkblot Test in klinische
settings, zeker als andere beoordelingsinstrumenten beschikbaar zijn.
Wat de
statistische predictie betreft wordt er voor enkele Rorschach scores steun voor
incrementele validiteit gevonden.
Lilienfeld et al. (2000) sommen zes gebieden op waarin er statistisch
significant betere predicties kunnen worden gedaan als de Rorschach Inblot Test
of bepaalde indexen ervan worden toegevoegd aan andere instrumenten. Toch wordt hierbij opgemerkt dat zulke
statistische incrementele validiteit enkel klinische relevantie heeft als
hierbij exclusief en heel precies de uitkomst van de statistische
predictieregels wordt gevolgd. Dit
gebeurt echter maar heel zelden. Bovendien
is het gros van de Rorschach scores niet onderzocht.
Lilienfeld et
al. (2000) concluderen dat voor bijna alle Rorschach scores en de CS scores er
geen evidentie is voor incrementele validiteit bij vergelijking met andere
psychometrische informatie.
2.2.4.4 De factorstructuur van de Rorschach scores
Factoranalyse
helpt te zoeken naar verschillende dimensies die te onderscheiden zijn in de
relaties tussen scores. Op deze manier
kan worden nagegaan of deze dimensies dan ook overeenkomen met een patroon dat
door de theorie voorspeld wordt.
Lilienfeld et al. (2000) verwijzen naar vijf reviews en rapporteren in
het kader van validiteit twee erg belangrijke bevindingen.
Ten eerste
blijkt dat zeker de grootste factor en misschien ook de tweede grootste een
hoge lading hebben op R. Deze bevinding
bevestigt zoals eerder vermeld dat R een sterke invloed heeft op een groot deel
van de Rorschach scores. Meyer
(1989,1991) in Lilienfeld et al. (2000) stellen dat dit in sterke mate de
validiteit van de Rorschach Inkblot Test compromitteert. Ze gaan zelfs zo ver dat ze elk onderzoek op
het gebied van de Rorschach in vraag stellen omdat de meeste studies deze
variabele R niet in rekening brengen.
Een tweede
problematische bevinding is dat de verschillende Rorschach scores niet
samenhangen of intercorreleren zoals op basis van de testtheorie of op basis
van de kennis in de klinische praktijk zou verwacht worden.
2.3 Besluit
Het was de bedoeling van Rorschach om zijn Inkblot Test uit te
werken tot een perceptueel-nomothetisch instrument waarmee
persoonlijkheidskarakteristieken konden opgespoord worden. Volgens
psychometrici echter bezit de Rorschach Inkblot Test niet de (psychometrische)
capaciteiten om aan deze doelstelling te kunnen voldoen. Het Comprehensive
System van Exner probeert, d.m.v. gedetailleerde regels voor afname en scoring,
normeringsgegevens en studies omtrent validiteit en betrouwbaarheid, de
psychometrische kwaliteiten van de Rorschach Inkblot Test te verbeteren. Deze
poging van Exner wordt echter in de literatuur op een ambigue wijze onthaald.
De normeringsgegevens die Exner presenteert zijn, volgens
verschillende auteurs, achterhaald, niet representatief en ze vertonen de
neiging tot overpathologisering. Tevens beweren verschillende auteurs dat deze
normeringsgegevens totaal niet generaliseerbaar zijn naar andere samenlevingen
dan deze van de Amerikanen.
Verschillende auteurs hebben kritiek op de wijze waarop Exner zijn
interscorerbetrouwbaarheidsindexen voor CS-variabelen berekende, nl. d.m.v.
percentage overeenkomst. Zij stellen dat kappa-oëfficiënten en
intra-klasse-correlaties betere maten zijn voor een schatting van de
interscorerbetrouwbaarheid. De discussie tussen voor- en tegenstanders van het
percentage overeenkomst als maat voor de schatting van de
interscorerbetrouwbaarheid is echter nog steeds volop aan de gang. Tevens zijn
er auteurs die beweren dat de interscorerbetrouwbaarheid van de totalen, i.p.v.
de afzonderlijke coderingen, moet nagegaan worden. Ook op dit vlak is er nog steeds
discussie. Tenslotte wijzen sommige auteurs op het onderscheid dat moet gemaakt
worden tussen (ideale) interscorerbetrouwbaarheid en
veldinterscorerbetrouwbaarheid.
Voor de hoge
test-hertest-betrouwbaarheidindexen van verschillende CS-variabelen, zoals Exner
deze vermeldt, wordt er in de literatuur nauwelijks evidentie gevonden. Uit
onderzoek blijkt enerzijds dat slechts voor 40% van de CS-variabelen
test-hertest-betrouwbaarheidsindexen berekend zijn en anderzijds dat andere
auteurs dan Exner steeds schattingen voor de test-hertest-betrouwbaarheid van
CS-variabelen bekomen die significant lager zijn dan deze van Exner.
Verschillende
auteurs halen studies aan die aantonen dat de meeste CS-totalen gecorreleerd
zijn met R. Vermits R significant hoger is in bepaalde groepen en positief
gecorreleerd is met intelligentie hebben verschillende groepen van mensen een
grotere kans om als pathologisch bestempeld te worden enkel omdat ze de neiging
vertonen om meer antwoorden te geven op de aangeboden vlekken. Alhoewel er in
de literatuur verschillende pogingen terug te vinden zijn om het R-probleem op
te lossen, doen de meeste clinici en Rorschach-onderzoekers alsof het
R-probleem niet bestaat.
Net zoals voor
het wetenschappelijk onderzoek naar de betrouwbaarheid geldt ook voor het
onderzoek naar de validiteit dat er in de literatuur heel wat discussies tussen
voor- en tegenstanders van de Rorschach Inkblot Test te vinden zijn. Het
problematische in dergelijke discussies is vaak het feit dat niet steeds
dezelfde definities gehanteerd worden. Om dit probleem in deze paper te
omzeilen, hebben we voor de bespreking van de validiteit van de Rorschach
Inkblot Test een onderscheid tussen verschillende niveaus van benadering
gemaakt. Globale meta-analyses stellen het probleem dat de validiteit van het
instrument voor een specifiek doeleinde niet kan onderzocht worden. Ze
vergelijken enkel de gemiddelde validiteit en tonen daarbij doorgaans lagere
waarden dan de WAIS en de MMPI. Wegens grote methodologische tekortkomingen en
het file drawer effect, moeten de resultaten van deze globale meta-analyses
echter met een korreltje zout genomen worden.
Specifieke
meta-analyses houden wel rekening met een bepaalde subset van variabelen en het
gebruik in een specifieke context. Toch wordt hier besloten dat ondanks enkele
schaarse positieve bevindingen m.b.t. de validiteit van een subset van
variabelen er toch problemen blijven met de klinische toepassing. Het
uitblijven van correlaties met diagnoses en zelfrapporteringsgegevens zaait
bovendien ook twijfel over de validiteit van de Rorschach Inkblot Test. Wat de
incrementele validiteit betreft, wordt geconcludeerd dat hiervoor tot nu toe
nog geen empirische evidentie gevonden werd. Bij de bespreking van de
factorstructuur tenslotte maakten we melding van vragen die gesteld worden bij
de waarde van het onderzoek dat tot nu toe verricht werd naar de validiteit van
de Rorschach Inkblot Test. Op R lijkt de grootste factor te laden en de
verschillende variabelen van het instrument lijken onderling niet samen te
hangen zoals voorspeld wordt door de theorie of de klinische praktijk.
3 Wetenschappelijke status van de Thematic Apperception Test (TAT)
3.1 Inleiding : De TAT algemeen
3.1.1 Achtergrond
De TAT is een
constructietechniek ontwikkeld door H. Murray en C. Morgan in 1935. Een andere
benaming is de plaatjes – interpretatie methode. Wanneer we een verhaal lezen,
leren we niet alleen iets over de fictieve personages, maar ook iets over de
auteur zelf. Deze observatie leidde Murray en Morgan tot de ontwikkeling van de
TAT.
Murray
ontwikkelde de TAT met een bepaalde persoonlijkheidstheorie in gedachten,
namelijk dat het menselijk gedrag het resultaat is van psychobiologische
factoren en omgevingsaspecten. Murray gaat er dus vanuit dat gedrag bepaald
wordt door de combinatie van twee factoren. De gedragsreactie van een organisme
kan steeds toegeschreven worden aan een hypothetische kracht, behoefte of nood
(Eng. : need) binnen het organisme. Naast deze noden situeert Murray een aantal
significante gedragsdeterminanten in de omgeving (Eng. : press). Een individu
kent op elk moment een complexe
integratie van needs en presses. De centrale notie in de dynamische
persoonlijkheidstheorie van Murray is de need–press combination of het thema.
Er zijn volgens
Murray 2 algemene psychische tendenties die leiden tot de mogelijkheid van
dergelijk plaatjes/methode – onderzoek. Ten eerste is er de neiging van de mens
om ambigue menselijke situaties te interpreteren in overeenstemming met zijn
vroegere ervaringen. Ten tweede is er de tendentie om bij het schrijven of
vertellen van een verhaal te putten uit ervaringen, hierdoor komen de onbewuste
gevoelens en wensen aan de oppervlakte bovendrijven. Er wordt dus gereflecteerd
over de behoeften, emoties, conflicten, … van de proefpersoon op bewust en op
onbewust niveau. Men beweert ook dat de TAT info bezit over de denkorganisatie,
emotionele responsiviteit, interpersoonlijke relaties, zelfconcept, coping
mechanismen, … .
De eerste stap
die in het analyse–systeem van Murray wordt gedaan, is het opsporen van de held
in het verhaal. De volgende stap in de analyse is het opsporen in detail wat de
helden op de verschillende platen voelen, denken, wensen of doen. Vervolgens
gaat men op zoek naar de behoeften (needs b.v. dominantie, prestatie,
hostiliteit…) van deze protagonisten. Er wordt hierbij een lijst van 28
aandriften gebruikt. Men moet dan de sterkte van de aandriften beoordelen in
een zespuntsschaal. Op dezelfde manier wordt er gekeken naar de druk (Eng. :
pressure) vanuit de omgeving op de held.
Er zijn enkele modificaties geweest tot in 1943 de huidige test met handleiding verscheen. De TAT is na de Rorschachtest de meest gebruikte projectietest. De TAT heeft weinig voorgeschiedenis. Er zijn ook veel varianten op de TAT ontstaan, o.a de Child Apperception Test, de Blacky Pictures Test, de Gerontological Apperception Test, … .
3.1.2 Vorm en afname
Men kan drie
modificaties onderscheiden: (1) modificaties waarbij de oorspronkelijke TAT –
platen van Murray worden gebruikt; (2) modificaties waarbij de afbeeldingen op
één enkel principieel punt zijn gewijzigd; (3) modificaties waarbij alleen de
hoofdinhoud van de bepaalde platen is behouden. De platen zijn in hoge mate
polyinterpretabel. Het zijn immers ambigue afbeeldingen. De testopdracht is
“Wat was de aanleiding tot de afgebeelde situatie, wat stelt deze voor, wat
ging eraan vooraf en hoe loopt dit verder af ?”.
De test bestaat
uit 30 afbeeldingen en 1 blanco kaart. De afbeeldingen zijn deels ontleend aan
tijdschriften, deels reproducties van bestaande schilderijen en deels
tekeningen die speciaal zijn ontworpen voor de test (o.a door C. Morgan).
Sommige platen kunnen aan alle proefpersonen voorgelegd worden, andere zijn
meer geschikt voor bepaalde proefpersonen. Voor elke leeftijd en geslacht is er
een reeks van 20 platen beschikbaar. De TAT is bruikbaar vanaf 7 jaar en vanaf
15 jaar kan men de platen voor mannen en vrouwen aanbieden. Niet al de 31
afbeeldingen zijn dus voor één individu bestemd, men gebruikt slechts enkele
van de platen, omdat een volledige afneming zeer veel tijd kan vergen, de test
moet immers mondeling worden afgenomen. De interpretatie is ook tijdrovend.
Schriftelijke afneming is ook mogelijk. Behoudens bepaalde waardevolle
observatiegegevens vb. stotteren, lange pauzes … levert dit dezelfde resultaten
op als de mondelinge afneming.
De TAT wordt zeer veel gebruikt in klinische settings. Er is echter ook zeer veel kritiek op gekomen vanuit methodologisch onderzoek.
3.2. De TAT psychometrisch
3.2.1 Introductie
3.2.1.1 Problemen eigen aan de TAT
Het statuut van
projectieve technieken in de kliniek is dus een fel bediscussieerde, hoewel op
grote schaal toegepast werd erg veel kritiek geuit op hun psychometrische
eigenschappen (zie ook supra). De Thematic Apperception Test (TAT) behoort,
samen met ondermeer de Rorschach, tot de meest door klinische psychologen
toegepaste instrumenten, zodat een grondige invraagstelling van de
wetenschappelijke status een vereiste is.
In deze
paragraaf beperken we ons tot de TAT, omdat deze test erg bekend is en
enigszins als voorbeeld kan dienen, hoewel generaliseren delicaat zoniet
onmogelijk is : tussen de diverse technieken onderling duiken er grote
verschillen op qua bijvoorbeeld constructvaliditeit. Illustratief ter duiding
van de ongelijkheden kan de taxonomische indeling van Lindzey zijn (Lindzey,
1959), die 5 subtypes onderscheidt in de projectieve technieken, waarbij de TAT
hoort onder de categorie der constructie-technieken (Lindzey, 1959). Andere,
naast constructvaliditeit, hier voorname factoren zijn predictieve validiteit,
betrouwbaarheid (incorporeert test-hertest betrouwbaarheid,
interbeoordelaarsbetrouwbaarheid en interne consistensie, zie verder onder
‘Betrouwbaarheid’), incrementele validiteit (in hoeverre levert een instrument
extra informatie op, naast andere informatie afkomstig van b.v.
zelf-rapportering?), en nut voor de behandeling (Lilienfeld et al., 2000).
Twee belangrijke bemerkingen bij dit alles: (a) Als men als methode een meta-analyse uitvoert, zal de zgn. publicatie-bias meespelen - er bestaat een selectieve tendens om negatieve bevindingen niet te publiceren, en de effectgrootte van gepubliceerde artikels is opmerkelijk groter dan die van ongepubliceerde. (b) In de klinische praktijk wordt zelden een standaard stimulusset gehanteerd, en hetzelfde geldt voor het gebruikte scoringssysteem. Dit gegeven is erg belangrijk, en zal het noodzakelijk maken om bij de psychometrie-bespreking een indeling volgens scoringsschema aan te houden. Alvarado (1994) geeft het belang aan van potentiële invloeden van kaart-inhoud, presentatievolgorde der kaarten, en vorm van de instructies. Daarom zouden onderzoekers steeds moeten nagaan of hun resultaten toe te schrijven zijn aan subjectkarakteristieken dan wel aan louter artefact zijn van de experimentele procedure. Verder vermelden Lilienfeld et al. (2000) het “Walter Mitty” effect en het inhibitie-effect, die inhouden dat respectievelijk hoge en lage niveau’s op een zeker attribuut kunnen te wijten zijn aan een bepaalde mate van fantaseren dat men een attribuut erg bezit (hoog) of een onderdrukken van de expressie van een attribuut (laag). In beide gevallen wordt het waarheidsgehalte van het door het subject verhaalde verlaagd. Daartegenover kunnen we in navolging van Cramer (1999) benadrukken dat de TAT narratief van aard is, en dat het verhaal van de verteller een constructie van de realiteit is, en niet louter een reconstructie.
3.2.1.2 Klinische validiteit versus onderzoeksvaliditeit
Ondanks de
kritiek wordt de TAT nog veel toegepast, en wordt hij onder clinici als nuttig
ervaren. Men zou kunnen zeggen dat afdoende empirische ondersteuning van de
‘klinische validiteit’ (Alvarado, 1994) nog moet gerealiseerd worden, maar dat
de test daarentegen wel reeds een soort subjectieve validiteit heeft verworven,
in de mate dat de TAT bruikbare informatie oplevert over de emotionele
responsen van subjecten op afbeeldingen van bepaalde conventionele menselijke
situaties. De kracht van de TAT zou dan schuilen in wat hij aan verborgen
materiaal openbaart, gegevens die men via meer directe methodes niet zou kunnen
of willen mededelen.
Voor onderzoeksdoeleinden kan de TAT beschouwd worden als een vorm van observationeel gedrag, en scoringssystemen moeten dan bijvoorbeeld toelaten op gedrag gebaseerde vergelijkingen tussen groepen te maken.
3.2.2 Indeling volgens scoringsschema
Zoals reeds
vermeld, zijn de gehanteerde scoringsschema’s, voorzover ze überhaupt gebruikt
wórden, heel uiteenlopend. De meeste clinici interpreteren de TAT op een
impressionistische wijze, zich baserend op klinische beoordeling en
intuïtie. Daarom is het goed volgens
enige representatieve scoringstechnieken in te gaan op psychometrische
bevindingen. Er zijn een drietal aanpakken ter systematische TAT-scoring die
veelbelovend zijn gebleken : (1) behoeftescoring schema’s, (2)
nagaan van objectrelaties, en (3) nagaan van defensiemechanismen (vb.
Cramer: de Defense Mechanisms
Manual, 1991).
Het standaardiseren van de TAT, wat ondermeer het gebruik van voorgeschreven scoringsschema’s inhoudt, lijkt geen prioriteit te zijn in het werkveld. Nochtans, o.m. Garb (1998) wijst op het gegeven dat zogenaamde experten vaak niet accurater zijn in hun gestelde intuïtieve diagnoses dan andere beoordelaars. De auteur benadrukt dan ook de nood aan een volwaardiger TAT-training in psychologie-opleidingen, teneinde een betere integratie van wetenschap en praktijk te verwezenlijken. De resultaten van empirisch onderzoek zouden het onderricht in de afname en scoring van de TAT moeten sturen, en meer éénvormigheid zou normatieve data mogelijk maken.
Hoezeer bij onderzoek (in de pracktijk is de situatie nog schrijnender) bij afname aangewende sets platen van elkaar kunnen verschillen werd overtuigend geïllustreerd door Keiser & Prather (1990), die alle TAT-artikels over een tijdspanne van 10 jaren heen verschenen in het vaktijdschrift ‘Psychological Abstracts’ nakeken (69 stuks waren beschikbaar voor het onderzoek) : slechts 26 studies specifieerden de Murray-kaarten met nummer, bij de andere ontbrak deels informatie daarover, of er werden andere platen gehanteerd. Bijna één derde der studies vermeldde helemaal niets dienaangaande.
3.2.3 Behoeftescoring
Het bekendste scoreschema gericht op behoeftescoring is dat van McClelland, Atkinson, Clarke en Lowell (1953), om prestatiebehoefte (Eng. : need for achievement) na te gaan. De geschreven verhalen van de respondenten worden daartoe gescoord volgens een gedetailleerde schema. Ten grondslag aan deze procedure ligt het gegeven dat projectietechnieken in staat zouden zijn impliciete motieven, i.e. behoeften waar het subject zich niet van bewust is, bloot te leggen. Daarin verschillen ze van zelfrapportering, die zelf-toegekende motieven taxeert.
3.2.3.1 Betrouwbaarheid
Cramer (1999)
spreekt zich uit tegen metingen van betrouwbaarheid gebaseerd op interne
consistensie. TAT kaarten zijn immers onvergelijkbaar met een serie items op
een persoonlijkheidsschaal die allen bedoeld zijn eenzelfde
persoonlijkheidstrek te meten. De alfacoëfficiënt is dus een ongeschikte meting
van betrouwbaarheid. Rechtstreeks betrouwbaarheidsonderzoek heeft over het
algemeen lage tot middelmatige correlaties opgeleverd. De betrouwbaarheid
varieert afhankelijk van het gevolgde uitwerkingssysteem. Men moet dus steeds
de gevonden coëfficiënten relateren aan het desbetreffend systeem. De algehele
klinische betrouwbaarheid is dus niet hoog. Gevonden waarden voor
behoeftescoring stijgen zelden uit boven 0.40 (Lelienfeld et al., 2000).
Test-hertest betrouwbaarheid is evenmin aangewezen, daar bij een volgende aanbieding het verrassingselement minder zal meespelen, subjecten de neiging vertonen een ánder verhaal te willen vertellen, en de gemeten psychologische karakteristiek kan veranderd zijn, zowel door aan het experiment inherente factoren als door bijvoorbeeld therapeutische interventie. Evenwel, in een studie van Winter en Stewart (1977) werd aangetoond dat de test–hertest betrouwbaarheid hoger is, wanneer aan de proefpersonen expliciet gevraagd wordt om bij de retest dezelfde verhalen te schrijven, i.p.v. een andere versie. Test-hertest scores liggen doorgaans laag, in het 0.30-bereik, en volgens Winter en Stewart (1977) is dit resultaat te wijten aan impliciete strategieën van subjecten en instructies van de test zelf.
Cramer (1999) stelt observatie voor als hoeksteen om tot een betrouwbaarheidsraming te komen, en suggereert dan ook interbeoordelaarsbetrouwbaarheid als te volgen methodologische weg. Deze laatste ligt voor TAT behoeftescoringsschema’s typisch tussen 0.80 en 0.90 (Fineman, 1977).
3.2.3.2 Constructvaliditeit
Om
constructvaliditeit na te gaan is het volgens Cramer (1999) om 2 redenen niet
aan te raden om correlaties tussen de TAT en zelfrapportering metingen te
vergelijken. Ten eerste toetsen metingen gebaseerd op de TAT een verschillend
niveau van persoonlijkheid dan zelfrapporteringen : persoonlijkheidstrekken
versus persoonlijke aangelegenheden (Eng. : personal concerns; zijnde doelen,
strategieën en defensiemechanismen). Ten tweede is het volgens Cramer
paradoxaal om mensen bij zelfrapportering te vragen naar hun persoonlijkheidskenmerken die, per definitie, gewoonlijk
ontoegankelijk zijn voor het bewustzijn. Een meta-analyse uitgevoerd door Spangler
(1992), die zich toch baseerde op correlaties tussen TAT en zelfrapportering,
gaf een bedroevend lage gemiddelde correlatie van 0.09 als resultaat. De
vergeleken methodes determineren blijkbaar wel degelijk andere constructen.
Men zou bijvoorbeeld, in plaats daarvan, om constructvaliditeit te controleren, kunnen trachten aan te tonen hoe de theorie geleid heeft tot de constructie van het TAT coderingssysteem, en er zich van vergewissen of dit systeem de te peilen theoretische constructen accuraat en adequaat reflecteren. Een andere mogelijkheid om vanuit de theorie te werken, is via predictie. Theoretisch zou het mogelijk moeten zijn tevoorspellen welke veranderingen in de persoonlijkheid moeten optreden bij wijziging van de omstandigheden, constructvaliditeit moet dan gezocht worden in de bevestiging van theoretische predicties.
3.2.4 SCORS
Westen
coderingsschema voor de TAT (Westen, 1991) behelst het inschatten van niveau’s
van objectrelaties (bedoeld wordt de mentale representaties over andere
personen). Daartoe werd de Social Cognition and Object Relations Scale (SCORS)
opgesteld.
De studie van objectrelaties moest de volgende domeinen omvatten : complexiteit van representaties van mensen, affectkleur van relationele schema’s, capaciteit tot emotioneel investeren in relaties, en het verstaan van sociale causaliteit. Elk van deze zaken werd onderverdeeld in 5 niveau’s, gaande van primitief tot matuur. Het gebruik van de SCORS voorziet in een manier om systematisch het ontwikkelingsniveau, of de relatieve pathologie, van verscheidene patiënttypes te determineren, gebaseerd op een bepaling van objectrelaties.
3.2.4.1 Betrouwbaarheid
Over de SCORS kan nagenoeg hetzelfde beweerd worden als over behoeftescoring : De interbeoordelaarsbetrouwbaarheid is hoogst bevredigend, meestal rond 0.90 (Westen, Ludolph, Lerner, Ruffins & Wiss, 1989), terwijl de interne consistensie laag is (Cronbach alfa’s 0.59 à 0.77), en de test-hertest betrouwbaarheid zelfs nooit terdege getoetst is geworden.
3.2.4.2 Constructvaliditeit
De
constructvaliditeit werd in diverse studies met klinische populaties goed
bevonden, de SCORS blijkt differentiële diagnostiek mogelijk te maken. Vooral
de borderline persoonlijkheidsstoornis werd dienaangaande onderzocht. Cramer (1999)
vond resultaten die de theorie onderschrijven dat borderline adolescenten een
meer dan normaal kwaadaardige objectwereld bezitten, net als een relatieve
incapaciteit om te investeren in anderen op een aangenaam-behaaglijke wijze, en
een tendens vertonen om motivatie bij anderen te attribueren op een al te
eenvoudige, onlogische en idiosyncratische manier. Westen, Lohr, et al. (1990)
vonden meestal de verhoopte resultaten bij een onderzoek waarbij naast een
controlegroep zowel borderline persoonlijkheidsstoornis als major depressie
patiënten betrokken waren, en gefocust werd op onderlinge verschillen op het
niveau van de vier schalen waaruit de SCORS is opgebouwd (complexiteit
menselijke relaties, enz. ...). Evenzeer bemoedigend is het onderzoek van Ackerman,
Clemence, Weatherill en Hilsenroth (1999), die ondermeer borderline en
antisociale persoonlijkheidsstoornis in het proefopzet opnamen, daar ook hier
de theoretische predicties grotendeels gestaafd werden. De SCORS blijkt dus wel
degelijk significant geassocieerd te zijn met zekere psychopathologische
condities. Onopgeloste problemen bij Westen et al. (1990) en bij Ackerman et
al. (1999) geven echter aan dat het bedoelde verband verre van perfect is : (a)
er werden complexere objectrelaties gevonden bij de borderline- dan bij de
controlegroep, hoewel Cramer (1999) wijst op de grote vairabiliteit in de
klinische populatie, en (b) ten aanzien van andere groepen vertoonde de
antisociale persoonlijkheid te lage niveau’s van immoraliteit en agressie. Bovendien
is aangetoond dat intelligentie enerzijds, en het aantal door de respondenten
geproduceerde woorden anderzijds, positief correleren met respectievelijk de
complexiteitsschaal, en de affectkleur- en sociale causaliteit-schalen van de
SCORS. Eenzelfde bemerking kan trouwens gemaakt worden voor de
behoefteschaal-scoringsschema’s, waar intelligentie gematigd positief
samenhangt met de TAT-indexen, en in toekomstige studies aldus best als
covariaat in de analyse opgenomen wordt (wat niet gebeurde in de tot nu toe
aangehaalde artikels).
Consensusanalyse, gevolgd door multidimensionele schalering (MDS), leverde evenzeer steun op voor de indeling gesuggereerd door Westen (1991) gebaseerd op objectrelaties. In het bijzonder affectkleur bleek een voorname component in de betekenis die subjecten aan de platen toekennen. Om emotie experimenteel aan betekenis te koppelen werd zowel een emotionele respons beslissingstaak (platen apart aangeboden dienden op een Likertschaal beoordeeld te worden volgens intensiteit van de emotionele respons) als een figuur triade taak (van drie TAT-platen moest telkens aangegeven worden welke het meest apart/afwijkend gebaseerd was op een ‘persoonlijke boodschap of betekenis’) afgenomen. De emotionele respons die de afbeeldingen teweegbrengen vermag dus op een systematische wijze bij te dragen tot het cognitief beslissingsproces. Algemeen is consensusanalyse nuttig van zodra men wil bepalen of responsen idiosyncratisch zijn, tegenover het bestaan van een gemeenschappelijke antwoordtendens binnen een groep (Alvarado, 1994). Indien consensus niet bereikt wordt, kunnen de individuele responspatronen geanalyseerd worden teneinde subgroepen in de stimuli te onderscheiden voor dewelke overeenkomst wél bestaat, of niet. Het concensusmodel levert bovendien een competentiescore voor elk subject op (komt de persoon overeen met de groep ?), en een gemiddelde competentiescore als maat voor de homogeniteit van de responsen binnen de groep. Alvarado (1994) gebruikte deze techniek, om vervolgens via MDS clusters te ontdekken in de collectie aangeboden Murray-platen. Er ís een zekere consensus in de responsen op de gepresenteerde kaarten te vinden, “... that the cards are not as ambiguous as their developers had hoped.”, maar de link tussen emotionele respons en cognitief oordeel onderschrijft de klinische validiteit van de TAT, ondanks het gebrek aan statistisch gedemonstreerde empirische validiteit, “Emotion underlies most clinical disturbance, and there seems little doubt that the TAT pictures reliably evoke emotional responses in subjects” (Alvarado, 1994).
3.2.5. DMM
Cramer (1991)
ontwikkelde de Defense Mechanisms Manual (DMM), een TAT coderingssysteem
ontworpen om de aanwezigheid van drie defensies te toetsen.
De drie
defensiemechanismen representeren verschillende graden van rijpheid.
‘Ontkenning’ is de meest primitieve defensiemechanisme, ‘projectie’ is een
complexer en rijper defensiemechanisme, en ‘identificatie’ heeft de hoogste
graad in complexiteit en rijpheid. De drie defensies zijn gecodeerd in een set
criteria, deze worden beschreven in een scorehandleiding met voorbeelden. Elk
TAT verhaal wordt dan gescoord op elk defensiemechanisme, door meer dan één
beoordelaar. Verschillende studies hebben aangetoond dat dit een voldoend hoge
interbeoordelaarsbetrouwbaarheid oplevert. Ter illustratie de criteria die
horen onder het ontkenning-defensiemechanisme : weglating, misperceptie,
omkering, ontkennende/loochenende beweringen, ontkenning van de realiteit,
overdreven maximaliseren van het positieve en minimaliseren van het negatieve,
en tenslotte onverwachte goedheid, optimisme, zelfverzekerdheid en
vriendelijkheid.
De DMM aanpak voor de toetsing van defensiemechanismen is gebruikt geworden in zeer veel studies met kinderen, adolescenten, volwassenen en psychiatrische patiënten. Wederom is generalisatie over al deze studies niet mogelijk, wegens de diversiteit van het aangeboden stimulusmateriaal, en populatienormen van de DMM zijn niet beschikbaar.
3.2.5.1 Betrouwbaarheid.
Eenzelfde tendens in de resultaten als bij de andere scoringsschema’s: de interbeoordelaarsbetrouwbaarheid is in orde, wat niet gezegd kan worden van de interne consitensie en de test-hertest betrouwbaarheid. Cramer en Block (1998) vonden Pearson correlaties van 0.81, 0.80 en 0.64 voor respectievelijk ontkenning, projectie en identificatie.
3.2.5.2 Constructvaliditeit
Toetsing kan
geschieden op verschillende manieren, omdat bij defensiemechanismen een zeker
verloop, een groei doorheen de levensjaren, te onderkennen valt. Overheen de
schooljaren zou er een terugval in het gebruik van ontkenning moeten
plaatsvinden, terwijl projectie en zeker identificatie verwacht worden eigen te
zijn aan het bereiken van een zekere maturiteit. Onderzoek op niet-klinische
populaties is dus zinvol. Cramer (1999) deed cross-sectioneel onderzoek bij
schoolkinderen, leeftijd 6 à 16 jaren, en vond de voorspellingen stavende
resultaten. Daarnaast is ook klinisch onderzoek mogelijk : Hibbard et al.
(1994) trachtten te differentiëren tussen psychiatrische patiënten en een
controlegroep, en slechts identificatie bleek significant hoger te liggen in de
referentiepopulatie. De constructvaliditeit van de TAT wordt dus niet tenvolle
ondersteund.
Psychodynamische modellen voorspellen een stijging der DMM-scores na stressvolle ervaringen, en Cramer en Gaul (1988) vonden bij schoolkinderen een toename in het gebruik van ontkenning en projectie (maar niet van identificatie) na het geven van negatieve feedback op een perceptueel-motorische taak. Geopperd werd dat defensiemechanismen een psychologische zelfprotectie kunnen vormen na traumatische ervaringen. Dergelijk theorie-gedreven onderzoek kwam ook reeds kort ter sprake bij behoeftescoringschema’s. Omdat bepaalde vormen van psychopathologie positief samenhangen met het gebruik van defensiemechanismen, en andere niet of minder, blijft natuurlijk de vraag bestaan of niet welk patroon aan bevindingen dan ook niet altíjd kan geïnterpreteerd worden als ondersteuning voor de DMM-validiteit. Het te toetsen concept (een zekere pathologie) dient dus a priori strikt genoeg omschreven te zijn.
3.2.6 Conclusie naar scoringsschema toe
Verschillende
TAT scoreschema’s hebben geen adequate normen beschikbaar. Deze zijn nochtans
nodig om te vermijden dat clinici psychopathologie overdiagnosticeren. De test
hertest – betrouwbaarheid van deze scoreschema’s is twijfelachtig. En er is ook
culturele bias.
De conclusie die
we kunnen trekken uit de drie uitgewerkte tactieken (behoeftescoring, DMM &
SCORS) is dat de constructvaliditeit van verscheidene TAT scoreschema’s, i.e.
toetsing van de behoefte ‘prestatie’ en objectrelaties, voldoende hoog is. Het
gebruik van de TAT voor het toetsen van defensiemechanismen heeft daarentegen
een lage interne consistentie.
3.3 Besluit
De TAT is een
veel gebruikt instrument in klinische settings, waarschijnlijk omwille van het
feit dat het bruikbaar materiaal oplevert voor de clinici. Daarentegen levert
onderzoek naar de validiteit en betrouwbaarheid ontmoedigende cijfers op, wat
grotendeels te wijten is aan dergelijk onderzoek, eerder dan aan het instrument
zelf. Het belang van de matige ondersteuning der constructvaliditeit voor de
klinische praktijk is evenwel twijfelachtig, daar het overgrote deel van de
clinici enkel en alleen op impressionistische interpretaties van de TAT
vertrouwen. Het onderzoek naar de TAT is zeer variabel, er is immers erg divers
stimulimateriaal van de TAT in omloop. Generalisatie van de ene studie naar de
andere is bijgevolg bijna onmogelijk, te wijten aan de gebrekkige consistentie
en specificiteit van materiaal en procedures. Men gebruikt bijvoorbeeld al te
vaak andere kaarten i.p.v de oorspronkelijke Murray-platen.
Dit alles
betekent niet dat de TAT waardeloos is voor individueel gebruik. De TAT kan worden
gebruikt als aanknopingspunt voor het gesprek, en/of aanwijzingen opleveren
voor nader onderzoek.
De TAT moet men eerder beschouwen als een observatiemethode dan als een psychometrische test. Hoe dan ook, de wetenschappelijke status van de TAT dient nog verder geëxploreerd te worden.
4. Wetenschappelijke status van tekentesten
Nog in onderhandeling met auteur K. D.
Vaak zijn de
onderzoeksresultaten omtrent betrouwbaarheid en validiteit onduidelijk en
spreken elkaar tegen. De betrouwbaarheid en de validiteit van deze technieken
worden door de ene verguisd en door de ander met hand en tand verdedigd.
Daarbij valt een grote discrepantie tussen de praktijk en het onderzoek op.
Vaak wordt in de praktijk volop gebruik gemaakt van technieken die
psychometrisch een erg slecht figuur slaan
Lilienfeld et
al. (2000) vermelden studies die aangegeven dat 49% tot 65% van de ondervraagde
verantwoordelijken van opleidingsprogramma’s voor psychologen de projectieve
technieken als onontbeerlijk voor de opleiding beschouwen. Bovendien geven ze
ook aan dat projectieve technieken, waaronder de Rorschach en de TAT, tot de
top tien van de meest gebruikte technieken behoren. Andere onderzoeken
daarentegen maken notie van een dalend gebruik of zelfs een doelbewuste
verbanning van de technieken. We maken daarbij de kantekening dat niet
noodzakelijke een tegenstellingmoet zijn: het gebruik van de technieken kan
dalen, ondanks het feit dat heel populair zijn.
Lilienfeld et
al. (2000), Van Der Molen (1997) en Masling (1997) verklaren het voorkomen van
de vele kritieken op de projectieve technieken vanuit het vaak ontbreken van de
bespreking van de methodologische aspecten.
De kritieken
slaan voornamelijk op aspecten van de betrouwbaarheid (het
niet-gestandaardiseerd zijn van het scorens-, normerings[10]- en interpretatiesystemen, de
onderliggende assumpties betreffende het scoren en de moeilijkheden bij het
verwerven van expertkennis en bij de trainbaarheid) en op aspecten van de
validiteit (de voorspellende kracht en de overeenkomst tussen verschillende
technieken is heel laag). Het is moeilijk om bij de technieken na te gaan of de
gegeven antwoorden van de onderzochten echt zijn dan wel geveinsd (Lilienfeld
et al., 2000) of wat de invloed is van de minimale interferenties van degene
die de techniek afneemt.
Bovendien worden
de technieken vaak gebruikt voor een ander doel dat dat waarvoor de techniek
oorspronkelijk werd opgesteld. Zo dient bijvoorbeeld de Rorschach-vlekkentest
niet om een DSM-diagnose te stellen. Het spreekt daarom voor zich dat we niet
noodzakelijk een hoge correlatie tussen de DSM en de techniek mogen verwachten.
Hoewel dit volgens sommige auteurs ook gerelativeerd moet worden, gezien de
hoge correlaties met het opsporen van bepaalde pathologieën (Lilienfeld et al.,
2000).
Lilienfeld et
al. (2000) leggen daarnaast ook de nadruk op een vaak sterk verontachtzaamde
kritiek: namelijk. de gegevens omtrent de betrouwbaarheid en de validiteit
kunnen sterk vertekend kunnen zijn door het weglaten van insignificante
resultaten. Het polariseren van de resultaten door zowel voor- als
tegenstanders is hier mogelijks de oorzaak van (De Boeck, 1999).
Alle projectieve
technieken baseren zich op een interpretatief proces om betekenis te geven aan
het geobserveerde gedrag. Men kan zich hier dan ook afvragen of er in het
scoren niet evenveel projectie aanwezig is als in de gegeven antwoorden van de
proefpersonen (tegenoverdracht).
De projectieve technieken hebben ook
voordelen. Deze technieken worden vaak als ‘ijsbreker’ ervaren door zowel de
onderzochte als door degene die de techniek afneemt. Vaak worden er een hele
testbatterij vol vragenlijsten afgenomen. De meeste[11] projectieve technieken worden dan als
interessant en aangenaam ervaren. Natuurlijk speelt de pathologie van de
onderzochte ook rol. Daarnaast wordt, zoals reeds boven vermeld, sociaal
wenselijk gedrag geminimaliseerd en
worden bewuste verdedigingsmechanismen bij het antwoorden door de aard
van de technieken omzeild.
Het is niet te
verwachten dat de projectieve projectiemethoden uit het diagnostisch
instrumentarium zullen verdwijnen. Ze verschaffen nu eenmaal informatie die
niet op een andere wijze te verkrijgen zijn (Exner, 1976 en Wade et al., 1977).
Men zal dus moeten blijven zoeken naar meer betrouwbare en meer valide
uitwerkingsmethoden van de projectietests. Ook nieuwe
data-verwerkingstechnieken zullen in de toekomst mogelijkheden kunnen bieden
voor sommige projectiemethoden.
Ackerman, S.J., Clemence, A.J., Weatherill, R., & Hilsenroth, M.J.
(1999). Use of the TAT in the assessment of DSM-IV Cluster B personality
disorders. Journal of Personality Assessment, 73, 422-448.
Alvarado, N. (1994). Empirical validity of the Thematic Apperception
Test. Journal of Personality Assessment, 63(1), 59-79.
Anastasi, A. (1982). Psychological testing. NY: MacMillan.
Arononow, E. , Reznikoff, M., & Moreland, K. L. (1995). The
Rorschach: Projective technique or Psychometric test?. Journal of
Personality Assessment, 64, 213-228.
Campbell, D. T. ,
& Fiske, D.W.(1959).Convergent and discrimant validity by the
multitrait-multimethod matrix. Psychological Bulletin, 56, 81-105.
Carmines, E. G., & Zeller, R. A. (1979). Reliability and validity
assessment. London: Sage Publications.
Cramer, P. (1991). The development of defense mechanisms: Theory,
research and assessment. NY:
Springer-Verlag.
Cramer, P. (1999). Future directions for the Thematic Apperception Test.
Journal of Personality Assessment, 72, 74-92.
Cramer, P., & Block, J. (1998). Preschool antecedents of defense
mechanism use in young adults: A longitudinal study. Journal of Personality
and Social Psychology, 74, 159-169.
Cramer, P., & Gaul, R. (1988). The effects of success and failure on
children’s use of defense mechanisms. Journal of Personality, 56,
729-742.
Cronbach, I. J., & Meehl P. I.. (1955). Construct validity in
psychological tests. Psychological Bulletin, 52, 281-302.
De Boeck, P. (1999). Cursus:
Vraagstukken uit de psychodiagnostiek. Leuven: Niet-gepubliceerde uitgave.
de Zeeuw, J. (1995). Algemene
psychodiagnostiek I: Testmethoden (7e druk). Lisse: Swets &
Zeitlinger.
Exner, J. E. , Jr. (1979). The Rorschach Systems. New York: Grune
& Stratton.
Exner, J. E., Jr. (1992). R in Rorschach research: A ghost revisited.
Journal of Personality Assessment, 58, 245-251.
Exner, J. E., Jr. (1996). A comment on “The Comprehensive System for the
Rorschach: A critical examination”. Psychological Science, 7, 11-13.
Ericson, K.,
Hilleras, P., Holmen, K., Jorm, A. et al (1994). The short human figure drawing scale for the evaluation of
suspect cognitive dysfunction in old age.
Archives of gerontology and geriatrics, 19(3), 243-251.
Fineman, S. (1977). The achievement motive and its measurement. Where
are we now? British Journal of Psychology, 68, 1-22.
Frank, I..
K. (1948). Projective methods. Springfield, III: Thomas.
Freud, S. (1998). Psychoanalytische
opmerkingen over een autobiografisch beschreven geval van paranoia (dementia
praecox).In S.Freud, Ziektegeschiedenissen 4. Amsterdam: Boom
Meppel.(Oorspronkelijke versie gepubliceerd in 1911).
Garb, H.N. (1998). Recommendations for training in the use of the
Thematic Apperception Test (TAT). Professional Psychology: Research and
Practice, 29, 621-622.
Garb, H. N. , Florio, C. M., & Grove, W. M. (1998). The validity of the Rorschach and
the Minnesota Multiphasic Personality Inventory: Results from meta-analyses. Psychological
Science, 9, 402-404.
Garb, H. N. , Florio, C. M. , & Grove, W . M . (1999). The Rorschach controversy: Reply to
Parker, Hunsley, and Hanson. Psychological Science, 10, 293-294.
Gronnerod, C . (1999).
Rorschach interrater agreement estimates: An empirical evaluation. Scandinavian
Journal of Psychology, 40, 115-120.
Groth-Marnat, G. , & Roberts, L . (1998). Human figure drawings and
house tree person drawings as indicators of self-esteem: a quantitative
approach. Journal of Clinical Psychology, 54,(2), 219-222.
Groth-Marnat, G . (1999). Handbook of clinical Assessment, third
edition. New York: John Wiley & Sons Inc.
Guildford, J. P. (1954). Psychometric methods. London:
McGraw-Hill Book Company.
Handler,
L., & Habenicht, D. (1994). The kinetic family drawing technique: a review
of the literature. Journal of personality assessment, 62(3), 440-464.
Hibbard, S., Farmer, L., Wells, C., Difillipo, E., Barry, W., Korman,
R., & Sloan, P. (1994). Validation of Cramer’s Defense Mechanism Manual for
the TAT. Journal of Personality Assessment, 63, 197-210.
Hiller, J. B. , Rosenthal, R. , Bornstein, R. F. , Berry, D. T. R. ,
& Brunell-Neuleib, S . (1999). A comparative meta-analysis of Rorschach and
MMPI validity. Psychological Assessment, 11, 278-296.
Joiner, T. E. , Schmidt, K. L. , & Barnett, J. (1996). Size, detail, and line heaviness in
children’s drawings as correlates of emotional distress: (more) negative
evidence. Journal of personality
assessment, 67(1), 127-141.
Kamphaus, R. W. , & Pleiss, K. L (1991). Draw a
person techniques: tests in search of a construct. Journal of school
psychology, 29, 395-401.
Karon, B.P . (1978). Projective tests are valid. American Psychologist, 33, 764-765.
Keiser, R.E., &
Prather, E.N. (1990). What
is the TAT? A review of ten years of research. Journal of Personality
Assessment, 55(3&4), 800-803.
Klopfer, W. F. ,
& Taulbee, E. (1976). Projective tests. Annual review of Psychology, 27, 543-567.
Laroche, N. , & Corveleyn, J.
(1986). Enkele bedenkingen omtrent de basisprincipes van Rorschachs
onderzoeksmethode: Vorm en inhoud. Tijdschrift voor Klinische Psychologie,
16(3), 132-147.
Lilienfeld, S. O. , Wood, J. M., & Garb, H. N. (November 2000). The
scientific status of projective techniques. Psychological science in the
public interest, 1 (2), 27-66.
Lipgar,
R. M. (1992). The
problem of R in the Rorschach: The value of varying responses. Journal of
Personality Assessment, 58, 223-230.
Masling, J. (1960). The influence of situational and interpersonal
variables in projective testing. Psychological Bulletin, 57, 65-85.
Masling, J. (1997). On the nature and utility of projective tests. Journal
of Personality Assessment, 69, 257-270.
McClelland, D.C., Atkinson, J.W., Clark, R.A., & Lowell, E.L.
(1953). The achievement motive. NY: Appleton-Century-Crofts.
Messick, S. (1993). Validity.
In Linn, R.L. (Eds.), Educational measurement (pp 13-103) (3rd
ed). Washington, DC: Oryx press.
Meyer, G. J. (1992). Response frequency problems in the Rorschach: Clinical and research
implications with suggestions for the future. Journal of Personality
Assessment, 58, 231-244.
Meyer, G. J. (1993). The impact of response frequency on the Rorschach constellation indices
and on their validity with diagnostic and MMPI-2 criteria. Journal of
Personality Assessment, 60, 153-180.
Meyer, G. J. (1997a). Assessing reliability: Critical corrections for a critical examination
of the Rorschach Comprehensive System. Psychological Assessment, 9,
480-489.
Meyer, G. J. (1997b). Thinking clearly about reliability: more critical corrections regarding
the Rorschach Comprehensive System. Psychological Assessment, 9,
495-498.
Meyer, G. J. (2000a). Incremental validity of the Rorschach Prognostic
Rating Scale over the MMPI Ego Strength Scale and IQ. Journal of Personality
Assessment, 74, 356-370.
Meyer, G. J. (2000b). On the science of Rorschach Research. Journal
of Personality Assessment, 75, 46-81.Nunnaly, J.C. (1967). Psychometric
theory. London: McGraw-Hill Book Company.
Parker, K. C. H. , Hanson, R. K. , & Hunsley, J. (1988). MMPI,
Rorschach and WAIS: A meta-analytic comparison of reliability, stability, and
validity. Psychological Bulletin, 103, 367-373.
Riethmiller, R. J. , & Handler, L. (1997). Problematic methods and
unwarranted conclusions in DAP research: suggestions for improved research
procedures. Journal of personality assessment, 69(3), 459-475.
Riethmiller, R. J. , & Handler, L. (1997). The great figure drawing
controversy: the integration of research and clinical practice. Journal of
personality assessment, 69(3), 488-496.
Ritzler, B. (1995). Putting your eggs in the content analysis basket: a
response to Aronow, Reznikoff, and Moreland. Journal of Personality
Assessment, 64, 228-234.
Scribner, C. M. & Handler, L. (1987). The interpreter’s personality
in draw-a-person interpretation: a study of interpersonal style. Journal of personality assessment, 51(1),
112-122.
Sechrest L. (1963). Incremental validity: A recommendation. Educational
and Psychological Measurement, 12, 153-158.
Sechrest, L. , & Wallace, J. (1964). Figure drawings and naturally
occurring events: elimination of the expansive euphoria hypothesis. Journal
of educational psychology, 55, 42-44.
Smith, D., & Dumont, F. (1995). A cautionary study: unwarranted
interpretations of the draw-a-person test. Professional psychology: research
and practice, 26, 298-303.
Spangler, W.D. (1992). Validity of questionnaire and TAT measures of
need for achievement: Two meta-analyses. Psychological Bulletin, 112,
140-154.
Swensen, C. H. (1968). Empirical
evaluations of human figure drawings: 1957-1966. Psychological bulletin, 70, 20-44.
Tharinger, D. J. , & Stark, K. (1990). A qualitative versus quantitative approach to evaluating the
draw-a-person and kinetic family drawing: a study of mood- and anxiety-disorder
children. Psychological assessment:
a journal of consulting and clinical psychology, 2, 365-375.
’t Hart , H., van
Dijck, J., de Goede, M. Jansen, W., & Teunissen, J. (1998). Onderzoeksmethoden.
Amsterdam: Boom.
Thomas, G. V., & Jolley, R. P. (1998). Drawing conclusions: a re-examination of empirical and conceptual
bases for psychological evaluation of children form their drawings. British
journal of clinical psychology, 37, 127-139.
Van Audenhove, C.,
& Stinissen, J. (1981). Handleiding bij de Thematic Apperception Test.
Leuven: Niet-gepubliceerde uitgave.
Vander Steene, G.,
& Stinissen, J. (1976). Inleiding tot de Rorschach-techniek naar het
systeem van Klopfer. K. U. Leuven: Niet-gepubliceerde uitgave.
Van Engeland, H. (2000). Autisme en
psychosen. In
Vandereycken, W., Hoogduin, C.A.L., & Emmelkamp, P.M.G. (Eds.), Handboek
psychopathologie (pp469-490).
Houten: Bohn Stafleu Van Loghum.
Weiner, I.B. (1996). Some observations on the validity of
the Rorschach Inkblot Method. Psychological Assessment, 8, 206-211.
Weiner, I.B. (1997). Current status of the Rorschach Inkblot Method. Journal of
Personality, 68, 5-19.
Westen, D. (1991). Clinical assessment of object relations using the
TAT. Journal of Personality Assessment, 56, 56-74.
Westen, D., Lohr, N., Silk, K.R., Gold, L., & Kerber, K. (1990).
Object relations and social cognition in borderlines, major depressives, and
normals: A Thematic Apperception Test analysis. Psychological Assessment, 2,
355-364.
Winter, D.G., & Stewart, A.J. (1977). Power motive reliability as a
function of retest instructions. Journal of Consulting and Clinical
Psychology, 45, 436-440.
Wood, J. M., Nezworski, M. T., & Stejskal, W. J. (1996a). The
Comprehensive System for the Rorschach: A critical examination. Psychological
Science, 7, 3-10.
Wood, J. M., Nezworski, M. T., & Stejskal, W. J. (1996b). Thinking
critically about the Comprehensive System for the Rorschach. A reply to Exner. Psychological
Science, 7, 14-17.
Wood, J. M., Nezworski, M. T., & Stejskal, W. J. (1997). The
reliability of the Comprehensive System for the Rorschach: A comment on Meyer
(1997). Psychological Assessment, 9, 490-494.
Wood, J.M., Lilienfield, S.O., Garb, H.N., & Nezworski, M.T. (2000). The Rorschach Test in clinical diagnosis: A critical review, with a backward look at Garfield (1947). Journal of clinical psychology, 56, 395-430.
Door Lic. Peeters, Tim;
Cayenberghs, Karen; Debock, Karel; Schouten, Ben en Wilderjans, Tom.
Niets mag vemenigvuldigd worden zonder toestemming van de auteurs, © December 2002.
Contact: Tefalpan2003@yahoo.co.uk
home | lijst scripties | inhoud |
[2] De onderzochte mag zoveel antwoorden geven als hij of zij wil. Het totale aantal antwoorden op alle vlekken wordt met het symbool ‘R’ aangegeven (de Zeeuw, 1995). Rond ‘R’ zal er later een hevige discussie ontstaan (zie later).
[3] De vierde combinatie, perceptueel-ideografisch, heeft zich nooit echt ontwikkeld (Aronow et al., 1995).
[4] In de VSA werden vooral de systemen van S. Beck en B. Klopfer populair. In Europa was deze rol weggelegd voor E. Bohm (de Zeeuw, 1995).
[5] Deze normeringsgegevens zijn enkel geldig voor de Amerikaanse samenleving. Om toegepast te kunnen worden in andere delen van de wereld is uitgebreider onderzoek noodzakelijk.
[6] Uit een studie van Shaffer, Erdberg en Haroian (1999) blijkt dat de normeringsgegevens van Exner significante discrepanties vertonen voor verschillende belangrijke Rorschach variabelen. Een follow-up-studie van Wood, Nezworski, Garb en Lilienfeld (in press) bevestigt deze bevindingen.
[7] Exner, J. E. (1993). The
Rorschach: A comprehensive system: Vol. 1. Basic foundations (3rd ed.). New
York: Wiley.
[8] Neem als voorbeeld 2 codeerders die een groot aantal Rorschach protocollen op toeval coderen. Stel dat variabele X in 5% van de antwoorden daadwerkelijk aanwezig is. Het zou kunnen voorkomen dat de 2 codeerders onafhankelijk van elkaar in 5% van de antwoorden variabele X onderkennen. Bij het op toeval coderen bestaat er dus een kans van 0.0025 (0.05 x 0.05) dat beide codeerders besluiten dat X aanwezig is in een bepaald antwoord en er bestaat een kans van 0.9025 (0.95 x 0.95) dat beide codeerders besluiten dat X afwezig is in een bepaald antwoord. Hieruit volgt dat enkel op basis van toeval alleen een percentage overeenkomst van 0.9050 (0.0025 + 0.9025) verwacht kan worden.
[9]
Major Depressive Disorder,
Posttraumatic Stress Disorder, anxiety disorders other than PTSD, Dissociative
Identity Disorder, Dependent, Narcissistic, or Antisocial Personality
Disorders, Conduct Disorder, or psychopathy. (Wood et al. 2000a)
[10] Hoewel men vaak heeft getracht hier verandering in te brengen, moeten we toch enkele kanttekeningen aanbrengen (Lilienfeld et al., 2000). De aanpassing van de vergelijkende populaties moeten bruikbaar zijn en moet cross-cultureel gebeuren.
[11] De Zin Invultest bijvoorbeeld lijkt vaak nog te veel op een vragenlijst.
Tim Peeters | Is er een onderscheid inzake persoonlijkheidsprofiel bij religieuze en niet-religieuze mensen? (onderzoeksartikel) |
Tim Peeters | De Tweede Naïviteit als grondhouding van de post-moderne gelovige. Een theologische theorie van Paul Ricoeur als achtergrond voor de psychologische theorie van David Wulff en het psychologisch model en instrument, de Post-Kritische Geloofsschaal, van Hutsebaut en collega’s. |