Arhive categorie: Making Sense of Data

Arbori de decizie (refăcut)

Ieri, din cauza unei neatenţii, din această postare au apărut doar 2 paragrafe. De aceea, rescriu această postare, punând (şi completând) informaţiile despre Arborii de decizie (AD).

Consideraţii generale privind arborii de decizie

Arborii de decizie definesc un proces de luare a deciziilor. AD pot fi:

  • generaţi manual
  • generaţi automat din datele culese

Avantajele AD:

  • pot explica modul în care a fost luată o decizie, bazându-ne pe criterii multiple.
  • pot fi folosiţi şi pentru date categoriale şi pentru date continue
  • poate poziţiona datgele în regiuni disctincte, bazate pe ranguri sau valori specifice

Dezavantajele AD:

  • costuri mari de calcul
  • dificil de optimizat

Un AD se bazează pe un criteriu şi pornind de la acest criteriu AD conţine o serie de puncte de decizie. Fiecare punct de decizie se mai nuţte ţi nod. Relaţiile dintre noduri sunt de tipul tată-fiu. Nodul tată poate fi urmat de 2 sau mai multe noduri-fiu. Nodul care nu are fii se numeşte nod-frunză (leaf node). Se recomandă alegerea criteriului de divizare astfel încât să avem doar 2 noduri-fiu. Orice criteriu de divizare are 2 componente:

  1. variabila ce trebuie divizată
  2. valoarea variabilei pentru care facem divizarea

Optimizarea criteriului de divizare

În urma unei divizări a seriei de date obţinem diferite categorii. Se poate întâmpla ca aceste categorii să nu fie distincte, adică să regăsim elemente ale unei categorii, în altă categorie. Aceste elemente (care nu sunt în categoria lor) se numesc impurităţi. Spunem că un criteriu e mai bun (optim) faţă de un alt criteriu, dacă conţine mai puţine impurităţi. În continuare voi prezenta un indicator al impurităţilor: entropia. Formula pentru calcularea entropiei este:

0001

unde

  • c – numărul de noduri fii
  • pi – cazuri favorabile fiului i / numărul total de cazuri

Prin definiţie dacă pi = 0 ⇒ Entropia = 0

Pentru a determina cea mai bună divizare (optim) a datelor se foloseşte formula:

0002

unde:

  • N – numărul de observaţii la nodul tată,
  • k – numărul de noduri posbile rezultate
  • N(j) – numărul de observaţii pentru fiecare nod fiu j

Optimizarea AD pentru cazul variabilelor necategoriale

Se foloseşte SSE (sum of the square error).

0003

Divizarea optimă va fi cea care are SSE-ul cel mai mic.