Introducerea unei baze de date de la tastatură

O bază de date poate fi desigur și introdusă în R direct de la tastatură. Pentru a arăta acest lucru voi lua o bază de date cu cinci plante (porumb) pentru care am măsurat înălțimea plantei și înălțimea de inserție:

planta1 215 56
planta2 222 82
planta3 162 34
planta4 154 40
planta5 179 51

Această bază de date o voi denumi tabel02. Pentru a introduce tabel02 în R, în primul rând va trebui să deschidem foaia unde vom trece aceste date. Pentru aceasta vom folosi instrucțiunile:

După ce vom da Submit (după ce am scris a doua instrucțiune) va apărea foaia pe care vom introduce datele:

În R commander avem la îndemână și o metodă mai simplă de accesare a foii în care punem datele. Putem da un clic pe opțiunea Data din meniu și din lista ce se va deschide alegem opțiunea New data set:

Apoi se va deschide o fereastră în care ni se va cere să scriem denumirea bazei de date:

Apoi vom da un clic pe OK și se va deschide fereastra în care vom introduce datele:

Aici în prima coloană vom introduce denumirea, în a doua valorile corespunzătoare înălțimii plantei și în a treia vom introduce valorile corespunzătoare înălțimii de inserție. După ce am scris „planta01” și și trecem în a doua coloană pentru a scrie valoarea înălțimii plantei, observăm că în locul denumirii apare NA (Not Avaible):

Aceasta se întâmplă pentru că implicit se consideră că fiecare celulă este de tip numeric. De aceea înainte de a scrie în prima coloană trebuie să modificăm această setare. Pentru aceasta vom da un clic pe var1 și se va deschide următoarea fereastră în care vom da un clic pe opțiunea Character (în imaginea de mai jos este selectată opțiunea Real):

Apoi vom scrie din nou denumirea „planta01” și dînd un clic pe săgeata dreapta vom trece în coloana a 2-a unde vom scrie valoarea înălțimii plantei. În final baza de date va arăta astfel:

Dacă mărim această fereastră putem vedea că avem mai mult de 4 coloane și 6 linii cât apar în imaginea de mai sus. Atunci când închidem această fereastră, baza de date va fi salvată, iar fereastra inițială va arăta astfel:

Observăm că prin folosirea celei de a doua opțiuni de editare a bazei de date, în această fereastră apare instrucțiunea pe care am scris-o la prima opțiune de editare. Dacă dorim să vizualizăm baza de date, vom da un clic pe butonul View data set și va apărea următoarea imagine:

Dacă dorim să mai introducem/modifica date, putem da un clic pe butonul Edit data set și va apărea fereastra în care putem introduce/modifica datele.

Curba ROC în PSPP

Deoarece curba ROC este folosită adeseori în cercetările din domeniul medical, exemplul pe care voi explica folosirea curbei ROC va folosi date din medicină:

Exemplu:

Pe un lot de 51 de pacienți cu vârsta cuprinsă între 26 și 79 de ani s-a studiat dacă vârsta este un factor determinant în pentru bolnavii cu diabet. Pentru aceasta am pus într-un tabel pe o coloană varsta pacientilor și pe altă coloană am codificat cu 1 daca pacientul are diabet și 0 dacă pacientul nu are diabet (având 51 de înregistrări am pus doar o parte din date în tabelul de mai jos):

15_08_001

Apoi în meniu dăm un clic pe Analyze și apoi pe ROC Curve:

15_08_002

După ce vom da un clic pe opțiunea ROC Curve, va apărea fereastra:

15_08_003

În această fereastră la Test Variable am pus varibila Varsta (am da un clic pe variabila Varsta în fereastra stângă, apoi am dat un clic pe săgeata din dreptul ferestrei Test Variable). La fel vom selecta la State Variable variabila binomială Diabet_zaharat. Vom mai bifa opțiunile ROC Curve, With diagonal reference line (pentru a avea pe diagrama o linie pentru prima diagonală) și Coordinate points of the ROC Curve. Apoi vom da un clci pe OK. În fereastra Output vor apărea următoarele rezultate

15_08_004

Primul tabel ne arată câși pacienți au diabet și câți nu (în exemplul nostru 16 pacientți au diabet și 35 nu au diabet). În al doilea tabel avem aria egală cu 0,69. În conformitate cu teoria (vezi postarea aceasta) modelul este acceptat. (se află la nivelul corect (fair)).

În tabelul de mai jos sunt trecute punctele pentru specificitate și sensibilitate a modelului, puncte utile în calcularea punctului de cutt-off:

15_08_005