2.1 Statistica descrittiva
Sito: | E-Learning PP&S |
Corso: | Classe Terza - AL4 - Liceo Internazionale Scienze Applicate 4 anni |
Libro: | 2.1 Statistica descrittiva |
Stampato da: | Utente ospite |
Data: | venerdì, 22 novembre 2024, 00:04 |
Descrizione
statistica descrittiva
1. Dati statistici e terminologia
I dati statistici sono il risultato dell’osservazione e della raccolta di una o più caratteristiche o misure su un insieme di unità sperimentali. Le unità statistiche sono quindi le unità su cui si raccolgono informazioni; esse possono essere individui, come per esempio nel caso di censimenti dell’ISTAT (Istituto Nazionale di Statistica), oppure oggetti come nel caso di controlli di qualità nella produzione industriale.
L’insieme delle unità statistiche su cui si effettua la
rilevazione è detta popolazione
statistica. La popolazione statistica può in alcuni casi coincidere proprio
con la popolazione di un certo territorio, ma può anche essere un suo
sottoinsieme, detto campione.
L’obiettivo della statistica descrittiva è descrivere la popolazione statistica; per farlo:
- Si sceglie un campione della popolazione, in modo che rappresenti l’intero gruppo;
- Si effettua l’indagine e si raccolgono i dati;
- Si rappresentano graficamente i dati raccolti;
- Si elaborano i dati;
- Si interpretano i risultati.
Dopodichè, attraverso la statistica induttiva, dalle interpretazioni dei dati raccolti ed elaborati si vogliono trarre conclusioni sull’intera popolazione; controllando che i risultati trovati possano essere generalizzati all’intera popolazione.
Le caratteristiche delle unità statistiche che sono oggetto di osservazione e di indagine si chiamano caratteri statistici. Essi si distinguono in:
- qualitativi (descritti con una parola): se rappresentano una caratteristica qualitativa, non misurabile, come ad esempio il colore dei capelli o degli occhi
- quantitativi (descritti con un numero): se rappresentano una quantità misurabile, come ad esempio l’altezza o il peso.
Ogni carattere può presentarsi in diverse modalità, che descrivono i valori che può assumere; quest'ultimi prendono il nome di modalità del carattere.
Lo scopo della statistica descrittiva è quello di fornire una rappresentazione sintetica della vasta mole di dati raccolti, mediante tabelle, indici numerici e rappresentazioni grafiche. In questa maniera le informazioni raccolte risultano più leggibili e di facile accesso. Molto spesso oggigiorno si trovano a disposizioni di tutti, pubblicati su giornali, in televisione o in rete i risultati di indagini statistiche. Il discorso che verrà sviluppato in questo ambito della matematica può essere particolarmente importante anche nella vita quotidiana: un lettore consapevole è anche in grado di interpretare correttamente le informazioni che riceve.
2. Analisi dei dati: tabelle di frequenze
Il modo più semplice di organizzare i dati rilevati in modo da renderli facilmente leggibili è quello di costruire tabelle di frequenze.
Nelle tabelle di frequenze sono riportate le modalità di un carattere (che abbiamo detto possono essere qualitative o quantitative) e la relativa frequenza o intensità con la quale ciascuna modalità si presenta.
La frequenza indicata può essere:
- assoluta
- relativa
- percentuale
La frequenza assoluta è il numero di tutte le unità
statistiche che assumono un certo valore o modalità in relazione ad un carattere.
Per calcolare la frequenza assoluta basta andare a contare tra tutti i dati
statistici raccolti, quelli che assumono quel determinato valore o modalità.
Si
osservi che la somma di tutte le frequenze assolute di un carattere è uguale
alla numerosità della popolazione o del campione statistico.
La frequenza relativa si definisce come rapporto tra la frequenza assoluta e la numerosità della popolazione o del campione statistico.
\( freq. relativa = \dfrac{freq. assoluta}{n° totale di dati} \)
Si osservi che la somma di tutte le frequenze relative di un carattere è uguale ad uno.
La frequenza percentuale è uguale al prodotto della
frequenza relativa moltiplicata per 100.
\( freq. percentuale = freq. relativa \cdot 100 \% \)
Si osservi che la somma di tutte le frequenze percentuali di un carattere vale 100.
L’insieme delle frequenze associate alle modalità di un carattere prende il nome di distribuzione di frequenze (assolute, relative o percentuali).
Esempio
Si sono raccolti dati sul colore degli occhi di un gruppo di 48 ragazzi che frequentano una scuola e si sono ottenuti questi risultati:
25 hanno gli occhi marroni
14 hanno gli occhi verdi
9 hanno gli occhi azzurri
Creiamo la tabella delle frequenze assolute:
La somma di tutte le frequenze assolute del carattere è 48, uguale alla numerosità del campione statistico.
La tabella delle frequenze relative:
La somma di tutte le frequenze relative è 1.
I valori delle frequenze relative si sono ottenuti dividendo il valore delle frequenze assolute (rispettivamente 25, 14 e 9) per il totale (ossia 48) e approssimando con 2 cifre decimali. A volte può capitare che, approssimando i valori, il totale non sia proprio uguale a 1.
La tabella delle frequenze percentuali:
La somma di tutte le frequenze percentuali è 100%.
I valori delle frequenze percentuali si sono ottenuti moltiplicando per 100 il valore delle frequenze relative (rispettivamente 0,52, 0,29 e 0,19). Anche in questo caso potrebbe capitare che, partendo da valori approssimati per le frequenze relative, il totale non sia proprio uguale al 100%.
3. Rappresentazioni grafiche dei dati
Per la rappresentazione grafica dei dati statistici, sono possibili vari tipi di grafici. Di seguito potete trovarne vari tipi.
Diagramma a barre
Nel diagramma a barre vengono indicate sull’asse orizzontale tutte le diverse modalità di un carattere e sull’asse verticale le corrispondenti frequenze. Per ogni modalità compare una barra rettangolare o semplicemente una linea verticale di altezza pari alla frequenza.
Esempio
Riprendiamo la tabella delle frequenze associate al colore degli occhi:
Il corrispondente diagramma a barre è il seguente:
Il diagramma a barre appena presentato riguarda le frequenze assolute, ma si possono anche considerare, allo stesso modo, le frequenze relative o percentuali.
In generale il diagramma a barre si utilizza per caratteri qualitativi.
Diagramma a torta
Il diagramma a torta è un'altra forma di rappresentazione grafica che si basa essenzialmente sulla stessa costruzione del diagramma a barre. In questo caso però tutte le diverse modalità del carattere sono riportate all’interno di un cerchio (la “torta”) e le frequenze corrispondenti sono rappresentate sottoforma di “fette” di diversa ampiezza.
Esempio
Se riprendiamo sempre lo stesso esempio relativo al colore degli occhi avremo il seguente diagramma a torta, riferito alle frequenze percentuali:
Il diagramma a dispersione
Il diagramma a dispersione si costruisce per caratteri di tipo quantitativo: sull’asse orizzontale vengono riportati i diversi valori (rispettando le proporzioni) e si disegna un punto in corrispondenza di ogni dato raccolto, effettuando eventualmente piccole approssimazioni sui valori.
Esempio
Ecco un grafico a dispersione costruito per rappresentare diversi valori di altezze registrati su un campione di 36 persone:
Istogramma
Una diversa forma di rappresentazione per caratteri di tipo quantitativo è l’istogramma.
Esempio
Riferendoci ai dati sulle altezze riportati nel precedente diagramma a dispersione, si può costruire il seguente istogramma:
L’istogramma è stato costruito suddividendo l’intervallo in cui variano le altezze in 4 classi di uguale ampiezza e associando ad ogni classe il numero di dati registrati in essa. Attenzione: nel caso in cui un valore coincida con un separatore di due classi, tale valore viene contato nella classe superiore.
Si osserva che l’istogramma è simile, anche se solo in apparenza, al diagramma a barre. Ci sono i seguenti aspetti da tener conto:
- i rettangoli dell’istogramma devono essere adiacenti e avere come vertici i punti che separano le classi
- nell’istogramma ogni rettangolo deve avere area
proporzionale alla frequenza della classe corrispondente (nel nostro caso,
avendo classi di uguale ampiezza, si ha l’altezza di ogni rettangolo
proporzionale alla frequenza della classe corrispondente).
4. Indici di sintesi dei dati
La moda
L’indice detto moda fornisce informazioni su caratteri di tipo qualitativo: esso indica la modalità di un carattere che compare con la massima frequenza. A volte potrebbero esserci due o più modalità con una frequenza massima. In generale si può avere una moda (unimodale), ma anche più mode (plurimodale).
Nell’esempio riguardante il colore degli occhi la moda è il colore marrone in quanto compare con la frequenza massima, come si osserva dalla seguente tabella:
La media
La media (o media aritmetica) è un indice di posizione che si usa nel caso di caratteri quantitativi.
Essa si calcola sommando tutti i valori dei dati registrati e dividendo tale somma per il numero totale di dati.
In formula:
\(x_m = \dfrac{x_1+x_2+...+x_N}{N} = \dfrac{\sum^N_{i=1}{x_i} }{N} \)
Esempio
Un classico esempio è il calcolo della media dei voti.
Supponiamo che uno studente abbia registrato questi voti:
\( \{ 7, 8, 6.5, 5, 8.5 \} \)
La media dei voti è:
\(x_m = \dfrac{7+8+6,5+5+8,5}{5}= 7 \)
La media armonica
La media armonica è un altro tipo di media. La media armonica di \(N\) numeri \( \{ x_1,x_2,...,x_N \}\) è definita come il numero:
\(x_{ma} = \dfrac{N}{\dfrac{1}{x_1}+\dfrac{1}{x_2}+...+\dfrac{1}{x_N}} = \dfrac{N}{\sum^N_{i=1}{\dfrac{1}{x_i}} } \)
Essa si può definire anche come il reciproco della media aritmetica dei valori reciproci \( \{\dfrac{1}{x_1}, \dfrac{1}{x_2}, ...,\dfrac{1}{x_N}\}\).
Esempio
Riprendiamo l'esempio dei voti registrati da uno studente.
Supponiamo che uno studente abbia registrato questi voti:
\( \{ 7, 8, 6.5, 5, 8.5 \} \)
La media armonica dei voti è:
\(x_{ma} = \dfrac{5}{\dfrac{1}{7}+\dfrac{1}{8}+\dfrac{1}{6.5}+\dfrac{1}{5}+\dfrac{1}{8.5}} = 7.35 \)
La mediana
La mediana è un altro indice di posizione usato per caratteri quantitativi. Per calcolare la mediana si ordinano i dati in ordine crescente; a questo punto la mediana è:
- il valore centrale (se il numero totale di dati è dispari)
- la media dei due valori centrali (se il numero totale di dati è pari)
Una caratteristica della mediana è quella di dividere l’insieme dei dati in due parti di uguale numerosità, una parte con valori tutti inferiori alla mediana, l’altra parte con valori superiori ad essa.
Esempio
Riprendiamo l’esempio dei voti registrati da uno studente:
\( \{ 7, 8, 6.5, 5, 8.5 \}\)
Il primo passo per trovare la mediana è riordinare in ordine crescente i valori:
\( \{ 5, 6.5, 7, 8, 8.5 \}\)
Ora possiamo dire che la mediana è il valore centrale, ossia \(7\).
Campo di variazione
Il campo di variazione è la differenza tra valore massimo e valore minimo di una sequenza di numeri.
Nell’esempio riguardante i voti registrati da uno studente il campo di variazione vale: \(8.5-5=3.5\).
Questo indice di dispersione non è molto accurato.
Scarto semplice medio
Lo scarto semplice medio \(S\) è definito come la media aritmetica dei valori assoluti degli scarti tra ogni valore e la media aritmetica \(x_m\). In formula:
\(S = \dfrac{|x_1-x_m|+|x_2-x_m|+...+|x_N-x_m|}{N} \)
Nell’esempio riguardante i voti registrati da uno studente lo scarto semplice medio vale \(1\) (provare a svolgere i calcoli).
La varianza
La varianza è un indice di dispersione che misura quanto i dati di tipo quantitativo si concentrano intorno al valor medio: maggiore è il valore della varianza e tanto più i dati sono dispersi. Essa è definita come la media degli scarti quadratici dalla media aritmetica, e la formula per calcolarla è:
\(Var = \dfrac{\sum^N_{i=1}{(x_i - x_m)^2} }{N} \) dove \(x_m\) è il valor medio o media
Nell’esempio riguardante i voti registrati da uno studente la varianza vale \(1,5\) (provare a svolgere i calcoli).
Lo scarto quadratico medio
Lo scarto quadratico medio è un altro indice di dispersione che si calcola come radice quadrata della varianza:
\(σ = \sqrt{Var} \)
Nel caso dei voti registrati da uno studente abbiamo detto che la varianza vale \(1,5\) e quindi lo scarto quadratico medio sarà \( \sqrt{1,5} = 1,22\).