Arhive etichetă: outliers

Clustering

Termenul clustering este preluat din engleză. În dicționarul englez-roman am găsit, pentru cluster, termenul grup, dar cred că mai sugestiv ar fi termenul mănunchi.

Prin clustering se înțelege realizarea de clustere. Opusul acestei operații de clustering este identificarea valorilor excepționale/aberante (în engleză outliers). Când se analizează activitatea generală a unui grup acestea sunt lăsate deoparte. Totuși prin apariția de outliers (atunci când nu sunt produsul unor erori de colectare a probelor) putem avea informații importante asupra caracteristicilor grupului participant la experiment (o altă idee legată de outliers este în cartea lui N.Taleb – „Lebăda Neagră”).

Avem două tehnici de clustering:

  1. clustering aglomerativ ierarhic ( Ierarchical Agglomerative clustering) – IA
  2. clustering k-means – KM

1. Clustering IA

am ales doar 8 probe cu cinci variabile pentru a arăta un mod de realizare a acestor „mănunchiuri”.

da_038

Calculăm distanța (euclidiană) dintre probe și o punem într-un tabel mai jos:

da_039

Vom realiza diferitele niveluri de clustering după valorile distanței. Astfel:
Nivel i : [i, i+1)

Pe foaia de calcul am evidențiat diferitele niveluri ale clustering-ului:

da_040

Observație: dacă cele 5 variabile nu au aceeași scală, se folosește unul din procedeele de normalizare (se pot găsi în această postare)