Klassisk teori om test
En test er a vitenskapelig instrument i den utstrekning det måler hva den har til hensikt, det vil si det er gyldig, og det måler godt, det vil si det er presist eller pålitelig. Hvis vi finner et instrument som vi ikke kan stole på de tiltakene de gir, siden de varierer fra tid til annen når vi måler det samme objektet, så vil vi si at det ikke er pålitelig. Et instrument, for å måle riktig noe, må være nøyaktig, for ellers måler du hva du måler, måler det feil. Derfor er nøyaktig en nødvendig, men ikke tilstrekkelig betingelse. I tillegg må det være gyldig, det vil si hva det måler nøyaktig, vil være det det er ment å måle, og ingenting annet.
Du kan også være interessert: Item Response Theory - applikasjoner og testpålitelighet:
Absolutt og relativ pålitelighet: Vi kan løse problemet med pålitelighet av en test på to forskjellige måter, men i bakgrunnen faller de sammen.
Pålitelighet som unøyaktigheten av målingene: Når et emne reagerer på en test, oppnår han en empirisk score som påvirkes av en feil. Hvis det ikke var noen feil, ville motivet få sin sanne poengsum. Testen er upresis fordi den empiriske poengsummen ikke stemmer overens med den sanne sanne poengsummen. Denne forskjellen mellom begge resultatene er prøvefeilen, målefeilen. den typisk feilmåling vil være standardavviket til målefeil. den typisk feilmåling indikerer absolutt nøyaktighet av testen, siden det tillater estimering av forskjellen mellom den oppnådde måling og den som ville oppnås hvis det ikke var noen feil.
Pålitelighet som målingens stabilitet: En test vil være mer pålitelig, desto mer konstant eller stabil vil resultatene det gir når det gjentas. Jo mer stabile resultatene er ved to anledninger, jo større er sammenhengen mellom dem. Denne korrelasjonen kalles pålitelighetskoeffisient. Dette uttrykker oss, ikke mengden av feilen, men sammenhengen av testen med seg selv og konstantiteten av informasjonen den gir. den pålitelighetskoeffisient uttrykker den relative påliteligheten til testen.
Pålitelighetskoeffisienten og pålitelighetsindeksen: - Pålitelighetskoeffisienten av en test er korrelasjonen av testen med seg selv, oppnådd for eksempel i to parallelle former: rxx. - Presisjonsindeksen er sammenhengen mellom de empiriske resultatene av en test og dens sanne poeng: rxv Presisjonsindeksen vil alltid være større enn pålitelighetenskoeffisienten For å finne ut hvilken pålitelighetskoeffisient disse tre klassiske metodene er verdt å nevne:
- Finn sammenhengen mellom testen og repetisjonen: Metoden for repetisjon eller test-retest-metode: Det består av å bruke samme test til samme gruppe ved to anledninger, og korrelasjonen mellom de to seriepoengene beregnes. Denne korrelasjonen er pålitelighetskoeffisienten. Denne metoden gir vanligvis en høyere pålitelighetskoeffisient enn de som oppnås ved andre prosedyrer, og kan være forurenset av forstyrrende faktorer.
- Finn sammenhengen mellom to parallelle former for testen: Metoden for parallelle former: Forbered to parallelle former for samme test, dvs. to ekvivalente skjemaer som gir samme informasjon, og gjelder for samme gruppe fag. Korrelasjonen mellom de to formene er pålitelighetskoeffisienten. Med denne metoden, ved å ikke gjenta samme test, unngås forstyrrende kilder til re-test-pålitelighet.
- Finn sammenhengen mellom to parallelle halvdeler av testen: Metoden med to halvdeler: Del testen i to like halvdeler og finn sammenhengen mellom dem. Det er den foretrukne metoden, siden det er enkelt og ignorerer begrensningene i de tidligere prosedyrene. Du kan velge de odde elementer av testen, for å danne en halv, og par elementer for å utgjøre den andre.
Pålitelighetskoeffisienten og korrelasjonen mellom parallelle tester
den pålitelighetskoeffisient av en test indikerer andelen som den ekte variansen er av den empiriske variansen: gráfico33 Tilpasningskoeffisienten til en test varierer mellom 0 og 1. For eksempel: hvis sammenhengen mellom to parallelle tester er rxx´ = 0.80, betyr at 80% av testens varians skyldes den virkelige måling, og resten, det vil si at 20% av testens varians skyldes feilen. den pålitelighetsindeks av en test er sammenhengen mellom dens empiriske score og dens sanne score pålitelighetsindeks = Pålitelighetsindeksen er lik kvadratroten av pålitelighetskoeffisienten
Når to parallelle former for en test er blitt utviklet, brukes variansanalyseprosedyren for å kontrollere homogeniteten av avvikene og forskjellen mellom tiltakene. Hvis avvikene er homogene, er forskjellen mellom midlene ikke signifikant og de to formene er konstruert med samme antall elementer av samme type og psykologisk innhold, det kan sies at de er parallelle. Hvis ikke, må du reformere dem til de er. Mangelen på pålitelighet identifiseres med rxx-verdien´= 0 4.- Den typiske feilmåling: Forskjellen mellom den empiriske og den virkelige poengsummen er tilfeldig feil, kalt målefeil. Standardavviket til målefeilene kalles den typiske målefeilen. den typisk feilmåling gjør det mulig å anslå om absolutt pålitelighet av testen, det vil si å anslå hvor mye målefeil som påvirker en score.
Pålitelighet og lengde: Testets lengde refererer til antall elementer. Påliteligheten avhenger av denne lengden. Hvis en prøve består av tre elementer, kan et fag en gang få en score på 1 og i en annen, eller på en parallell måte, en poengsum på
Fra en anledning til en annen har poengsummen variert med ett punkt; et punkt over tre er en variasjon på 33%, en stor variasjon. Hvis individene oppnår tilfeldige variasjoner av denne typen, vil korrelasjonen av testen med seg selv eller med de to parallelle former for testen bli sterkt redusert og kan ikke være høy. Hvis testen er mye lengre, hvis du for eksempel har 100 elementer, kan et emne få 70 poeng ved en anledning og 67 på parallell basis. Fra den ene til den har den endret 3 poeng; Det er en relativt liten variasjon i forhold til den totale testen, spesielt 3%. Disse små uformelle endringene i denne størrelsen, som forekommer i fagområdene, når de går fra en form til den neste, er relativt ubetydelige og vil ikke minske like mye som før sammenhengen mellom begge.
Pålitelighetskoeffisienten vil være mye høyere enn i forrige tilfelle. Spearman-Brown-ligningen uttrykker forholdet mellom pålitelighet og lengde. Presisjonen til en test er null når lengden er 0, og den øker etter hvert som lengden øker. Selv om økningen er relativt mindre da lengden av hvilken del er større. Dette betyr at presisjonen vokser mye i begynnelsen og relativt mindre senere. Når lengden har en tendens til uendelig, har påliteligheten koeffisienten en tendens til
Å øke lengden på en test øker nøyaktigheten fordi den øker den sanne variansen med en høyere hastighet enn feilvariasjonen. Dette betyr at nøyaktigheten av testen øker fordi andelen varians som skyldes feilen minker. Formelen til Rulon, samt formelen til Flanagan og Guttman, er spesielt anvendelig ved beregning av pålitelighetskoeffisienten ved hjelp av metoden i de to halvdelene. Dette er formler som brukes til å beregne pålitelighetskoeffisienten.
Pålitelighet og konsistens: Pålitelighetskoeffisienten kan også finnes på en annen måte, det er den såkalte alfa koeffisient eller generaliserbarhetskoeffisient eller representativitet (Cronbach). Denne alfakoeffisienten indikerer nøyaktigheten som noen elementer måler et aspekt av personlighet eller oppførsel. Det kan tolkes som: Et estimat av gjennomsnittlig korrelasjon av alle mulige elementer i et bestemt aspekt. Et mål på nøyaktigheten av testen i henhold til dens sammenheng eller interne konsistens (sammenhengen mellom dens elementer, i hvilken grad testelementene måler alt det samme) og dets lengde. Indikerer representativiteten til testen, det vil si hvor mye prøven av elementer som komponerer den, er representativ for populasjonen av mulige gjenstander av samme type og psykologisk innhold. den alfa koeffisient reflekterer hovedsakelig to grunnleggende begreper i nøyaktigheten av en test: 1. Sammenhengen mellom dens elementer: i hvilken grad de alle måler det samme.
Testets lengde: Ved å øke antall tilfeller i en prøve, og hvis systematiske feil elimineres, representerer prøven bedre befolkningen fra hvilken den ekstraheres, og det er mer usannsynlig at tilfeldig feil er involvert. Hvis testelementene er dikotom, (ja eller nei, 1 eller 0, enighet eller uenighet osv.), Blir alfakoeffisientens ligning forenklet, noe som gir opphav til ligningene av Kuder-Richardson (KR20 og KR21). Gitt et visst antall elementer, vil en test være mer pålitelig, når den er mer homogen. Alfa-koeffisienten forteller oss påliteligheten som den representerer homogenitet og konsistens eller intern konsistens av elementene i en test.
Standarder og pålitelighetskriterier
I henhold til modellen for prøveutvalget av gjenstander er målet med testen å anslå det tiltaket som skulle oppnås dersom alle elementene i prøveplassen ble brukt. Dette tiltaket ville være den sanne poengsummen, som de virkelige tiltakene tilnærmet mer eller mindre. Avhengig av hvor stor en prøve av elementer korrelerer med de sanne resultatene, er testen mer eller mindre pålitelig. I denne modellen er matrisen av korrelasjoner mellom alle elementene i utvalgsområdet sentralt. Denne prøvemodellen insisterer mer direkte på intern konsistens, og i den grad det oppnår det, indirekte garanterer stabiliteten..
Den lineære modellen for parallelle tester insisterer mer på stabiliteten av score, og i den grad det oppnår stabilitet, favoriserer den indirekte intern konsistens. Hvis vi bruker en test for å etablere individuelle diagnoser og prognoser, må pålitelighetenskoeffisienten være fra 0,90 til over. I prognoser og kollektive klassifiseringer er etterspørselen ikke så mye, selv om det ikke er praktisk å komme seg vekk fra 0,90 til 0,80..
Noen ganger er det i enkelte typer tester, for eksempel personlighetstester, vanskelig å oppnå koeffisienter på mer enn 0,70. Hvis parallelle skjemaer, eller parallelle halvdeler, blir brukt, etter et mer eller mindre stort intervall, kan de tilfeldige feilene være flere tallrike enn de som påvirker alfakoeffisienten. Dette er fordi det som reduserer korrelasjonen, er ikke bare tilfeldige feilene i testen og i en enkelt anledning, som er de som tar hensyn til alfakoeffisienten, men også påvirker alle feilene som kan komme fra de to forskjellige situasjonene , som kan variere i mange detaljer. Derfor er alfa-koeffisienten vanligvis høyere enn de andre koeffisientene.
Bortsett fra koeffisienten som ble funnet ved å gjenta samme test, siden det er mer sannsynlighet for at tilfeldige feil i den første applikasjonen blir gjentatt i den andre, og i stedet for å redusere sammenhengen mellom de to, øker de den. Det må sikres at den andre applikasjonen er helt uavhengig av den første. Hvis vi oppnår dette, vil dette være den enkleste og billigste metoden og tilrådelig når vi prøver å sette pris på stabiliteten til resultatene, spesielt i lange perioder og med komplekse tester. > Neste: Gyldigheten av testene