Arhive etichetă: ierarchical agglomerative clustering

Legătura dintre un element și un cluster

Dacă avem deja două clustere și un element se pune problema cărui cluster aparține acel element. Pentru aceasta va trebui să determinăm distanța dintre fiecare cluster și element. Calculăm distanța dintre element și toate elementele clusterului. Avem trei posibilități:

  1. distanța medie ( media distanțelor dintre element și respectiv fiecare element al clusterului)
  2. distanța minimă
  3. distanța maximă

Elementul va fi încadrat în clusterul de care este mai apropiat.

Exemplu:

Să presupunem că avem un cluster în care au intrat probele A și B și un alt cluster în care intră probele D, E și F. Se pune problema în care cluster vom încadra elementul C:

da_041

Calculăm distanțele dintre probe:

da_042

Observăm că avem un cluster format din probele A și B și un alt cluster format din probele D, E și F. Studiem apartenența lui C la primul sau al doile cluster. Vom analiza pe rând cele 3 posibilități:

1. distanța medie

  • față de clusterul AB este 8,45
  • față de clusterul DEF este 11,04

2. distanța minimă

  • față de clusterul AB este 8,30
  • față de clusterul DEF este 10,30

3. distanța maximă

  • față de clusterul AB este 8,60
  • față de clusterul DEF este 11,80

La o primă vedere am putea include variabila C în clusterul AB. Dar, observând faptul că distanța dintre clusterul AB și clusterul DEF este mai mică (pe oricare din cele 3 direcții) decât distanța dintre C și clusterul AB, mai degrabă proba C se încadrează ca valoare excepțională (aberantă).