Arhive etichetă: coeficientul lui Jaccard

Distanța Jaccard (coeficientul Jaccard de similaritate)

Fie exemplul din postarea anterioară în care pentru 3 soiuri de la 4 ferme s-au trecut procentele din cultura afectată de o anumită boală:

da_027

Dorim să calculăm „distanța” dintre soiuri pentru a vedea modul in care acestea au reactionat la boala de care au fost afectate. Vom nota cu 1 dacă avem 30% sau mai mult din cultură afectată și 0 în altă situație. Tabelul va arăta astfel:

da_033

Vom folosi următoarea codificare:

  • C11 – numărul de ferme la care avem 1 pentru primul soi și 1 pentru al doilea soi
  • C10 – numărul de ferme la care avem 1 pentru primul soi și 0 pentru al doilea soi
  • C01 – numărul de ferme la care avem 0 pentru primul soi și 1 pentru al doilea soi
  • C00 – numărul de ferme la care avem 0 pentru primul soi și 0 pentru al doilea soi

Atunci se va defini distanța Jaccard astfel:

da_034

Cu ajutorul acestei formule vom calcula distanțele dintre cele 3 soiuri pe foaia de Excel:

da_035

Încă de la codificare se poate observa că avem identitate între soiul A și B.

Dacă dorim să studiem similaritatea vom folosi formula:

da_036

În coloana F vom calcula coeficientul de similaritate:

da_037

Observăm că :

sJ = 1 – d