Coeficientul kappa (Cohen)

Acest coeficient se aplică pentru date de tip calitativ. Este foarte util atunci când analiza unui fenomen se bazează pe părerile (subiective) a doi specialiști și dorim să vedem dacă părerile acestora diferă semnificativ. O altă aplicație ar fi dacă o analiză efectuată la un anumit moment este aproape de analiza finală (echivalența pretestare-testare). Coeficientul kappa se interpretează astfel:

dacă val e cuprinsă între 0 – 0,20 – legătură slabă

dacă val e cuprinsă între 0,21 – 0,40 – legătură satisfăcătoare (fair)

dacă val e cuprinsă între 0,41 – 0,60 – legătură moderată

dacă val e cuprinsă între 0,61 – 0,80 – legătură bună

dacă val e cuprinsă între 0,81 – 1 – legătură foarte bună

Voi prezenta un exemplu pentru a explica mai bine modul în care se utilizează (și interpretează) acest instrument.

Exemplu (date fictive):

Fie un lot de 24 de subiecți. Doi specialiști și-au exprimat părerile asupra influenței unui stimul asupra acestor pacienți. S-a realizat următoarea codificare: 0 – slabă, 1 – medie, 2 – puternică. Datele au fost puse în PSPP:

fig01

Pentru a calcula coeficientul kappa pentru aceste date vom da câte un clic pe următoarele opțiuni: Analyze – Descriptive Statistics – Crosstabs

fig02

După ce vom da un clic pe Crosstabs va apărea fereastra (unde am pus o variabilă la linii si cealaltă la coloane):

fig03

 

Apoi vom da un clic pe butonul Statistics (partea de jos a ferestrei) și vom debifa opțiunea Chisq și vom bifa opțiunea Kappa, apoi vom da un clic pe Continue

fig04

 

După ce vom reveni la fereastra initială, vom da un clic și pe butonul Cells (nu e o etapă obligatorie în calcularea coeficientului kappa, dar poate fi util în analiza datelor – afișarea frecvențelor absolute și relative):

fig05

Aici am bifat opținea Count, Total și Expected. Apoi am dat un clic pe Continue, iar odată revenit la fereastra anterioară am dat un clic pe OK. Pe fereastra Output vom avea trei tabele cu rezultate:

fig06

 

În ultimul tabel observăm că am obținut pentru kappa valoarea 0,31 deci avem o legătură satisfăcătoare (cuprinsă între 0,21 și 0,40) între părerile celor doi specialiști.

Pe prima diagonală a celui de al doilea tabel avem cazurile pentru care părerile celor doi specialiști corespund. Astfel avem 8 cazuri în care amîndoi specialiștii au spus că influența e slabă, 4 cazuri în care amîndoi specialiștii au spus că influența e medie și 2 cazuri în care amîndoi specialiștii au spus că influența e puternică. În total avem 14 cazuri din 24 (putem calcula procentul folosind cele 2 numere sau adunând procentele de pe diagonală). Deci avem un procent de concordanță a părerilor celor 2 specialiști de 58,3%.

În practică se acceptă modelele pentru care coeficientul kappa este mai mare ca 0,6 (legătură bună și foarte bună).

Coeficientul phi

De multe ori datele pe care le avem pot fi reduse la două categorii: cazuri favorabile și cazuri nefavorabile. Sau, în medicină de exemplu, prezența unui simptom sau absența lui. Pentru a studia gradul de asociere al varibilelor putem folosi coeficientul φ (în literatura de specialitate îl găsim sub denumirea coeficentul phi). Pentru a explica modul în care se poate calcula acest coeficient cu ajutorul PSPP-ului voi lua un exemplu.

Fie o bază de date în care, pe un lot de 50 de pacienți, s-a studiat pentru o boală prezența (sau absența) mai multor simptome:

feb_030

Dorim să studiem dacă există o asociere între simptomul 1 și celelalte simptome. Pentru aceasta, vom pune datele în PSPP (în această postare am arătat cum se pot importa datele din Excel în PSPP):

feb_031

Apoi vom da clic pe următoarele opțiuni: Analyze – Descriptive statistics – Crosstabs. Se va deschide fereastra:

feb_032

Deoarece dorim să comparăm simptomul 1 cu celelalte simptome am pus In prima fereastră simptomul 1 și celelalte le-am pus în a doua fereastră. Apoi vom da clic pe Statistics pentru a indica ceea ce dorim să calculăm:

feb_033

Am bifat opțiunea Phi, apoi dăm un clic pe Continue, iar în fereastra ce apare vom da un clic pe OK. Va obține următoarea fereastră Output:

feb_034

(am pus doar un fragment din fișierul Output). Pentru a interpreta coeficientul vom folosi următoarele reguli:

  • de la 0 la 0,3 nu avem asociere între variabile.
  • 0,3 la 0,7 avem o asociere slabă a variabilelor
  • peste 0,7 asociere puternică a variabilelor

Trebuie ținut cont de faptul că acest coeficient, la un număr mare de înregistrări, poate da erori la valorile marginale.