Teori for svar på elementet - Programmer og test

Teori for svar på elementet - Programmer og test / Eksperimentell psykologi

Innenfor feltet av Teorien om psykometriske test Ulike kirkesamfunn har dukket opp som for øyeblikket tar navnet på "Theory of Item Response" (F.M. Lord, 1980). Denne betegnelsen viser noen forskjeller i forhold til den klassiske modellen: 1.- Forholdet mellom forventet verdi av fagets score og egenskapen (karakteristikk som er ansvarlig for verdiene), er vanligvis ikke lineær. 2.- har til hensikt å lage individuelle spådommer uten å måtte henvise til egenskapene til den normative gruppen.

Du kan også være interessert i: Klassisk testteori Index
  1. Teori om svaret på elementet eller modeller av latent egenskap i teorien om testene
  2. Modeller av elementresponsteori (tri)
  3. Beregning av parametere
  4. Test konstruksjon
  5. Anvendelser av elementresponsteori
  6. Tolkning av poeng

Teori om svaret på elementet eller modeller av latent egenskap i teorien om testene

Vi ser da at denne reaksjonsteorien til elementet gir mulighet til å beskrive hverandre både elementene og individene; Det vurderer også at svaret gitt av emnet avhenger av ferdighetsnivået som er vurdert i området. Opprinnelsen til disse modellene skyldes Lazarsfeld, 1950, som introduserte begrepet "latent egenskap" .

Herfra regnes det at hver enkelt person har en individuell parameter som er ansvarlig for egenskapene til emnet, også kalt "egenskap". Denne funksjonen er ikke direkte målbar, derfor blir den enkelte parameter kalt den latente variabelen. Ved bruk av testene kan du få to forskjellige ting, den sanne poengsummen og treningsskalaen; Dette oppnås hvis vi sender to tester på samme treningsøkt til samme gruppe.

I latent egenskapsteori eller teori om svaret på elementet Den sanne poengsummen er den verdien som forventes fra den observerte poengsummen. Ifølge Herren er den sanne poengsummen og treningen det samme, men uttrykt i forskjellige målestokk.

Modeller av elementresponsteori (tri)

Modeller binomiske: ble introdusert av Herren (1965), som antar at den observerte resultatet tilsvarer antall riktige svar oppnådd i test (hvis elementer alle har samme problemer og har lokal uavhengighet, dvs. sannsynligheten å svare riktig på et element påvirkes ikke av svarene gitt til andre elementer).

Poisson modeller: Disse modellene passer for de testene som har et stort antall elementer, og hvor sannsynligheten for korrekt eller feil respons er liten. Innenfor denne gruppen har vi i sin tur forskjellige modeller:

  1. Poisson Rasch-modell, hvis hypoteser er: hver test har et stort antall binære gjenstander som er lokalt uavhengige. Sannsynligheten for feil i hvert element er liten. Sannsynligheten for at emnet gjør en feil, avhenger av to ting: prøvens vanskelighet og fagets evne. additiviteten til vanskelighetene, forstått som resultat av å blande to ekvivalente tester i en enkelt test hvis vanskelighetsgrad er summen av vanskelighetene ved de to første testene.
  2. Poisson modell for å vurdere hastigheten: Denne modellen ble også foreslått av Rasch og er preget av at hastigheten i utførelsen av testen er tatt i betraktning. Modellen kan stilles på to måter: telle antall feil begått og ord leses i en tidsenhet. telle antall feil som er begått og tid brukt til å fullføre lesingen av teksten. Sannsynligheten for å realisere et bestemt antall ord av en prøve (i) av et emne (j), i løpet av en tid (t)
  3. Ojiva Normale Modeller: Er foreslått av Herren (1968) modell, som brukes i tester med dikotome elementer med en enkelt variabel grafisk común.Su er som følger: De grunnleggende forutsetninger som kjennetegner denne modellen er:
  • plassen til latent varianten er endimensjonal (k = 1).
  • lokal uavhengighet mellom intems.
  • metriske for latent variabel kan velges slik at kurven til hvert element er det normale krigshodet.

Logistikkmodeller; Det er en modell som ligner på den forrige, men det har også flere fordeler i forhold til matematisk behandling. Den logistiske funksjonen har følgende form: Det er forskjellige logistikkmodeller avhengig av antall parametere som har:

  • 2 parametere logistisk modell, Birnbaum 1968, blant sine egenskaper, nevner vi at det er endimensjonalt, det er lokal uavhengighet, elementene er dikotomøse etc.
  • 3 parametere logistisk modell, Herre, karakteriseres fordi sannsynligheten for å gjette rett er en faktor som vil påvirke testens ytelse. 4.3. 4-parameter logistisk modell: modell foreslått av McDonald 1967 og Barton-Lord i 1981, hvis formål er å forklare de tilfellene der fag som har et høyt treningsnivå ikke svarer riktig på varen.
  • Logistisk modell av Rasch: denne modellen er den som har generert flere jobber tross for å ha en ulempe, er at dens tilpasning til de faktiske data som er mer difícil.Pero motsetning til denne fordel som gjør det så mye brukt er det ikke krever stor Eksempel på størrelser for justeringen.

Beregning av parametere

Metoden som har blitt brukt mest, er maksimal sannsynlighet, ved siden av denne metoden brukes numeriske tilnærmingsprosedyrer, for eksempel Newton-Raphson og Scoring (Rao). Maksimal Sannsynlighet Metoden er basert på prinsippet om å skaffe estimatorer av de ukjente parametrene som maksimerer sannsynligheten for å oppnå nevnte prøver. I tillegg til den Maximum Likelihood Bayesian Beregning basert på Bayes teorem, som er å inkorporere alle kjente informasjon, a priori, som er relevante for prosessen med å gjøre slutninger det er også brukt. En mer grundig studie av den bayesiske metoden for estimering av treningsparametere er den som ble gjort av Birnbaum (1996) og Owen (1975). .

INFORMASJON FUNKSJONER

Den beste testen som kan bygges er den som gir mest informasjon om latent trekk. Kvantifiseringen av denne informasjonen skjer gjennom "informasjonsfunksjonene". Formelen funksjon informasjon, Birnbaum 1968, er som følger: Husk at informasjonen innhentet i en test er summen av informasjon om hvert element, pluss bidraget fra hvert element er ikke avhengig av andre elementer som utgjør testen. Generelt kan vi si at informasjonen, i alle modellene:

  • varierer med treningsnivå.
  • Jo større kurven er, desto mer informasjon.
  • Avhenger av variansen av resultatene, desto høyere er dette, desto mindre informasjon.

Test konstruksjon

Den første oppgaven og en av de viktigste på tidspunktet for å lage en test er valget av elementene, tidligere akkord av de teoretiske antagelsene som må definere funksjonen som testen har til hensikt å måle. Konseptet "elementanalyse" refererer til settet av formelle prosedyrer som utføres for å velge de elementene som til slutt vil danne testen. Informasjonen som anses mest relevant med hensyn til varene er:

  1. Vanskelighetsgrad ved varen, prosentandel av personer som korrigerer det.
  2. Diskriminering, korrelasjon av hvert element med totalpoengsum på testen.
  3. Distraktorer eller feilanalyser, dens innflytelse er relevant, påvirker vanskeligheten til varen og gjør diskrimineringsverdiene undervurdert.

På tidspunktet for å etablere indikatorer for de ulike indeksene, blir statistikk eller indekser vanligvis brukt, og følgende er de mest brukte:

Indeks of difficulty Index of diskriminering Indeks for pålitelighet Indeks for validitet Kjente indekser som må tas i betraktning for valg av de elementene som skal danne testen, vil vi se hvilke trinn som er nødvendige for å bygge en test:

  1. Spesifikasjon av problemet.
  2. Oppgi et bredt sett med elementer og feilsøk dem.
  3. Valg av modell.
  4. Test de forhåndsvalgte elementene.
  5. Velg de beste elementene.
  6. Undersøk testens kvaliteter
  7. Etablere normer for tolkning av den endelige testen som er oppnådd.

Fra de forrige punktene skal det bemerkes at valg av modell, punkt 3, vil avhenge av målene som forfølges av testen, egenskapene og kvaliteten på dataene og de tilgjengelige ressursene. Når en modell er valgt, gitt de teoretiske forholdene der den kan påføres, nei til tross for dens dyder må analyseres i hvert enkelt tilfelle og spesielle forhold. Egenskapene tilskrives de modellene som utgjør Teori for svaret til varen (TRI), kan påvirkes av:

  • dimensjonalitet testen viser den begrensede tilgjengeligheten av manglende dataressurser Det finnes en rekke preferanser når man skal bruke en eller de andre modellene, la oss se: vanlige stridshode modeller er vanligvis ikke brukes i applikasjoner, deres verdi er teoretisk.
  • Rasch: egnet for horisontal sammenligning (sammenlignbare tester på vanskelighetsgrader med lignende treningsfordeling). å ha forskjellige former for den samme testen. * 2 og 3 parametere: er de som passer best til en rekke problemer.
  • å oppdage feilaktige responsmønstre. for vertikal utjevning av tester (sammenligne tester med ulike vanskelighetsgrader og forskjellige fordelinger for fitness).

1 og 2 parametere:

  • egnet til å bygge en enkelt skala, slik at du kan sammenligne ferdighetene på forskjellige nivåer.

Valg av modell, i tillegg til slutten forfulgt, kan påvirkes av størrelsen på prøven; I tilfelle at prøven er stor og representativ, vil det ikke være noe problem enten den klassiske modellen eller latent trekk. Men i TRI ( elementresponsteori ) En liten prøve tvinger deg til å velge modeller med et lite antall parametere, til og med uniparametermodellen.

Anvendelser av elementresponsteori

La oss se hva som er de vanligste bruksområdene: a) Equalisering av tester, noen ganger er det nødvendig å relatere resultatene som er oppnådd i forskjellige tester, med to mulige formål:

  • Horisontal utjevning: Det søktes å oppnå forskjellige former for samme test.
  • Vertikal utjevning: Målet er å bygge en enkelt målestok med ulike vanskelighetsgrader. Når det gjelder utjevning av test, introduserer Lord (1980) begrepet "egenkapital", noe som innebærer at for hvert fag kan to tester være utskiftbare siden det blir brukt at den ene eller den andre ikke vil endre nivået på egnethet som hadde blitt estimert. for emnet.

Studie av forstyrrelser av elementene, et objekt er skjevt når det i gjennomsnitt gir signifikant forskjellige score i bestemte grupper som skal være en del av samme populasjon.

Testene er tilpasset eller gjennomsnittlig , Gjennom TRI kan individuelle tester konstrueres som gjør det mulig å konkludere på en mer presis måte den sanne verdien av egenskapen i spørsmålet. Elementene vil bli administrert i rekkefølge, forhåndsinnstillingen av ett element eller et annet vil avhenge av svarene gitt ovenfor. Det finnes forskjellige typer tilpassede tester, vi peker på følgende:

  • to-trinns prosedyre, lord 1971; Bertz og Weiss 1973 - 1974. En test er bestått først og avhengig av resultatene, administreres en andre test.
  • Prosedyre i flere stadier, er det samme som forrige, bare prosessen inneholder flere stadier.
  • Fast forgreningsmodell, Lord 1970, 1971, 1974; Mussio 1973. Alle fagene løser det samme elementet, avhengig av svaret, er et sett med elementer løst.
  • Variabel forgrenet modell, er basert på uavhengigheten mellom elementene og egenskapene til maksimal sannsynlighet estimatorene.

Bank av varer, Å ha et stort sett med elementer er noe som vil forbedre kvaliteten på testen, men for dette må elementene gjennomgå en feilsøkingsprosess først. For å klassifisere elementene, er det nødvendig å ta hensyn til hvilken funksjon som er ment å måle testen som dette elementet vil være en del av..

Tolkning av poeng

vekter: Formålet er å tilby et kontinuum for å bestille, klassifisere eller vite hva som er den relative størrelsen på den evaluerte funksjonen; Dette vil tillate oss å etablere forskjeller og likheter hos mennesker med hensyn til det trekket. Vektene som brukes i psykologi er: nominelle, ordinære, intervall og grunn; Disse skalaene er konstruert fra resultatene av testene, resultatene kalles "direkte score" .

kjennetegne : å skrive en test er å omdanne de direkte resultatene til andre som lett kan tolkes, siden den karakteriserte poenget vil avsløre motivets posisjon i forhold til gruppen, og vil tillate oss å lage intra og intersubject sammenligninger. Det finnes to typer skriving:

  1. Lineær, behold formen på fordelingen og ikke endre størrelsen på korrelasjonene.
  2. Ikke-lineær, de opprettholder ikke fordelingen eller størrelsen på korrelasjonene .

FITNESS SCALE I TRI er skalaen som er bygget, den skalaen som tilsvarer treningsnivået; Denne skalaen er karakterisert fordi estimatene og referansene er gjort direkte med hensyn til evne og omfang. Videre avhenger denne evnen som estimeres, bare av formen på karakteristikkskurven til elementene. Innenfor mulige skalaer indikerer vi to:

  1. Skala, foreslått av Woodcock (1978) og er definert av følgende formel:
  2. WITS skala, foreslått av Wright (1977), denne skalaen er en modifikasjon av den forrige og er gitt av følgende forhold: