Arhive lunare: februarie 2015

Normalizarea datelor

Începând cu această postare voi parcurge cartea „Making Sense of Data” a lui Glenn J. Myatt apărută la Editura Wiley. Subtitlul cărții: A Practical Guide to Exploratory Data Analysis and Data Mining. Menționez că nu e vorba de o transcriere a cărții, ci de adnotări pe marginea acestei cărți. Dacă cineva va considera că sub o formă sau alta am încălcat vreo regulă legată de drepturile de autor îl rog să mă anunțe și voi șterge acel pasaj (sau postare). Postările vor conține in general idei, modul în care interpretez acele idei. Cărții îi este asociat un site: http://www.makingsenseofdata.com/

Formulele prezentate în carte le voi verifica pe alte date pentru a înțelege mai bine modul în care funcționează aceste formule:

Exemplul 01 (preluat din Ceapoiu(1968)) Pentru a se studia efectul acțiunii unui virus asupra tutunului s-au infectat 6 frunze de tutun cu un preparat x1. Acțiunea preparatului se stabilește numărând leziunile de pe acele frunze. Rezultatele sunt redate în tabelul de mai jos (pus în Excel):

nov_fig42

Myatt prezintă în carte 3 metode de normalizare a datelor. Am să iau niște exemple pentru ilustrarea lor.

1. min-max Se folosește atunci când vrem transpunerea valorilor într-un interval dat (în carte este luat intervalul (0,1)). Voi folosi această metodă pentru datele din exemplu 01. formula ce va fi folosită pentru această normalizare va fi:

da_001 (formula 001)

unde
nv – este noua valoare
v – valoarea inițială
minvi – minimul valorilor din șir
maxvi – maximul valorilor din șir
nmax – maximul intervalului dat
nmin – minimul intervalului dat

pentru exemplul 01 voi pune pe foaia de calcul minvi, maxvi, nmax, nmin:

da_002

În coloana C voi calcula pentru fiecare element noile valori folosind formula 001:

da_003

(am folosit semnul $ pentru a fixa valorile atunci când copiez formula pentru celelalte celule)

2. Scorul z . Normalizează valorile în jurul mediei. Se folosește următoatea formulă

da_004(formula 002)

unde
mx – media variabilei
s – abaterea standard a variabilei

Pe foaia de calcul vom calcula media și abaterea standard cu ajutorul funcțiilor din excel (exemple pentru folosirea acestor funcții: pt medie si pentru abaterea standard)

da_005

Folosind formula 002, vom calcula în coloana D valorile normalizate în jurul mediei:

da_006

3. Scalarea zecimală. Se folosește atunci când dorim ca datele să fie cuprinse între 0 și 1. Pentru aceasta vom folosi formula:

da_007
formula 003

unde n reprezintă numărul de cifre ale valorii v (partea întreagă).

În exemplul 01 vom calcula aceste valori în coloana E:

da_008