Coeficientul kappa (Cohen)

Acest coeficient se aplică pentru date de tip calitativ. Este foarte util atunci când analiza unui fenomen se bazează pe părerile (subiective) a doi specialiști și dorim să vedem dacă părerile acestora diferă semnificativ. O altă aplicație ar fi dacă o analiză efectuată la un anumit moment este aproape de analiza finală (echivalența pretestare-testare). Coeficientul kappa se interpretează astfel:

dacă val e cuprinsă între 0 – 0,20 – legătură slabă

dacă val e cuprinsă între 0,21 – 0,40 – legătură satisfăcătoare (fair)

dacă val e cuprinsă între 0,41 – 0,60 – legătură moderată

dacă val e cuprinsă între 0,61 – 0,80 – legătură bună

dacă val e cuprinsă între 0,81 – 1 – legătură foarte bună

Voi prezenta un exemplu pentru a explica mai bine modul în care se utilizează (și interpretează) acest instrument.

Exemplu (date fictive):

Fie un lot de 24 de subiecți. Doi specialiști și-au exprimat părerile asupra influenței unui stimul asupra acestor pacienți. S-a realizat următoarea codificare: 0 – slabă, 1 – medie, 2 – puternică. Datele au fost puse în PSPP:

fig01

Pentru a calcula coeficientul kappa pentru aceste date vom da câte un clic pe următoarele opțiuni: Analyze – Descriptive Statistics – Crosstabs

fig02

După ce vom da un clic pe Crosstabs va apărea fereastra (unde am pus o variabilă la linii si cealaltă la coloane):

fig03

 

Apoi vom da un clic pe butonul Statistics (partea de jos a ferestrei) și vom debifa opțiunea Chisq și vom bifa opțiunea Kappa, apoi vom da un clic pe Continue

fig04

 

După ce vom reveni la fereastra initială, vom da un clic și pe butonul Cells (nu e o etapă obligatorie în calcularea coeficientului kappa, dar poate fi util în analiza datelor – afișarea frecvențelor absolute și relative):

fig05

Aici am bifat opținea Count, Total și Expected. Apoi am dat un clic pe Continue, iar odată revenit la fereastra anterioară am dat un clic pe OK. Pe fereastra Output vom avea trei tabele cu rezultate:

fig06

 

În ultimul tabel observăm că am obținut pentru kappa valoarea 0,31 deci avem o legătură satisfăcătoare (cuprinsă între 0,21 și 0,40) între părerile celor doi specialiști.

Pe prima diagonală a celui de al doilea tabel avem cazurile pentru care părerile celor doi specialiști corespund. Astfel avem 8 cazuri în care amîndoi specialiștii au spus că influența e slabă, 4 cazuri în care amîndoi specialiștii au spus că influența e medie și 2 cazuri în care amîndoi specialiștii au spus că influența e puternică. În total avem 14 cazuri din 24 (putem calcula procentul folosind cele 2 numere sau adunând procentele de pe diagonală). Deci avem un procent de concordanță a părerilor celor 2 specialiști de 58,3%.

În practică se acceptă modelele pentru care coeficientul kappa este mai mare ca 0,6 (legătură bună și foarte bună).

Curba ROC în SPSS

Pentru a înțelege acest concept vom defini mai întâi conceptele de sensibilitate și specificitate a unui fenomen.

Atunci când construim un model studiem legătura dintre predicție și răspuns. Pornind de la aceste concepte, putem avea patru posibilități când realizăm un model (inițialele codurilor provin din engleză TP – true positive, TN – true negative, FP – false positive, FN – false negative):

  • TP – Predicție pozitivă, răspuns pozitiv
  • TN – Predicție negativă, răspuns negativ
  • FP – Predicție pozitivă, răspuns negativ
  • FN – predicție negativă, răspuns pozitiv

Atunci vom defini:

  • Sensibilitatea = TP/(TP+FN) (cazurile de predictii pozitive supra cazurile cu răspunsuri pozitive)
  • Specificitatea = TN /(TN+FP) (cazurile de predictii negative supra cazurile cu răspunsuri negative)

Curba ROC (Receiver Operating Characteristics) este o curba bidimensională în care pe axa Y avem sensibilitatea și pe axa X avem specificitatea. Această curba ne ajută să măsurăm eficiența unui model. Cu cât aria de sub curbă este mai mare (maximul este 1) cu atât modelul este mai bun.

  • Aria > 0,9 – excelent
  • 0,9 > Aria > 0,8 – foarte bun
  • 0,8 > Aria > 0,7 – bun
  • 0,7 > Aria > 0,6 – corect (fair)
  • Aria < 0,6 – modelul se respinge

Curba ROC se folosește în medicină și de aceea exemplul ce-l voi da va fi din acest domeniu:

Fie un test (prin test se poate înțelege o serie de analize, rezultatul unui scor sau chiar prezența sau absența unor simptome) aplicat la 30 de pacienți. Fiecărei valori îi asociem o valoare binară 0 sau 1 corespunzătoare faptului că nu este prezentă boala, respectiv este prezentă. (Datele de mai jos sunt fictive și au rolul de a ajuta la înțelegerea folosirii acestui instrument).

mart_004

Pentru realiza curba ROC vom da un clic pe Analyze – ROC Curve și se va deschide fereastra:

mart_005

În fereastra Test Variable vom pune variabila scor iar la State Variable vom pune prez_boala. In fereastra Value of State Variable vom pune valoarea ce indică prezența bolii – în cazul nostru valoarea 1. Vom da un clic pe OK și vom obține fereastra Outputmart_006

Primul tabel conține o statistică descriptivă: număr de cazuri pozitive și număr de cazuri negative

mart_007

Ultimul tabel conține informații despre semnificabilitatea curbei.

mart_009

Aria este 0,950 deci modelul este excelent, lucru pe care-l putem observa și din analiza valoarii p = 0,000 (Asymptotic Sig). Ultimele 2 rubrici ale tablelului ne dau marginile intervalului de încredere.