LA STATISTICA

La Statistica è una scienza che utilizza la Matematica per studiare l’andamento dei fenomeni collettivi.

Sono considerati collettivi tutti quei fenomeni che riguardano un gran numero di persone, esseri viventi, cose o situazioni.

Ad esempio sono fenomeni collettivi:

Lo studio dell’andamento della popolazione di uno Stato

Lo studio dell’andamento delle nascite e delle morti

Lo studio dell’andamento dell’emigrazione o dell’immigrazione

Lo studio dell’andamento dei costi degli alimenti

Lo studio dell’andamento delle vendite delle marche di automobili

Per fare un’indagine statistica è necessario raccogliere le informazioni relative al fenomeno che si vuol indagare.

Questo comporta il rilevamento e la trascrizione dei dati.

Successivamente i dati devono essere elaborati, interpretati e rappresentati.

Per raccogliere le informazioni si deve individuare la popolazione statistica, cioè le persone o le cose che sono l’oggetto dell’indagine.

Costituiscono una popolazione statistica, ad esempio, i siti visitati su internet, i libri di una biblioteca, i ragazzi che praticano il calcio, i cittadini italiani, ecc.

Ogni sito visitato, ogni libro di quella biblioteca, ogni ragazzo calciatore, ogni cittadino italiano, è l’unità statistica.

Le caratteristiche specifiche di ogni unità statistica (ad esempio i libri della biblioteca possono avere per oggetto la matematica, la letteratura, la storia ecc.) sono dette variabili statistiche.

Le variabili statistiche se sono espresse da un numero, ad esempio il prezzo di un libro oppure l’età di una persona, sono dette variabili quantitative.

Se invece non si possono esprimere con un numero, ad esempio l’argomento di un libro, il sesso di una persona, sono dette variabili qualitative.

Dopo aver definito il fenomeno che si vuol indagare, la popolazione e le variabili statistiche, si stabilisce se la raccolta dei dati debba essere totale o per campione.

Il metodo di raccolta può basarsi su interviste, su questionari o su consultazione di archivi.

I dati raccolti devono essere trascritti in opportune tabelle.

Le tabelle hanno l’inconveniente di riportare i dati in modo disordinato. Ciò non facilita l’analisi e la comprensione del fenomeno.

Dalle tabelle di rilevazione occorre ricavare un’ordinata sintesi delle informazioni. Per questo si procede al loro riscontro attraverso l’operazione di spoglio che è la raccolta, l’esame, la suddivisione e selezione delle informazioni. (Ad esempio si contano quanti sono i libri di storia, quanti quelli di matematica, ecc).

Dallo spoglio si ricavano i veri dati statistici che si trascrivono, poi, in opportune tabelle dette tabelle di frequenza.

Nelle tabelle di frequenza si indicano poi la frequenza assoluta, quella relativa e percentuale di ogni dato statistico.


Esempio

Indagine statistica a variabile qualitativa

Indagine sui film preferiti dalle persone intervistate per telefono da un’emittente TV locale.

Le persone intervistate fanno parte del campione rappresentativo degli abitanti della città in cui opera la suddetta TV.


Nelle indagini statistiche a variabile qualitativa, come la precedente, l’elaborazione dei dati si sviluppa attraverso:

L’individuazione della frequenza assoluta di ogni dato statistico

Il calcolo della frequenza relativa

Il calcolo della frequenza percentuale

L’individuazione della moda

La rappresentazione grafica dei dati

La frequenza assoluta di un dato statistico è un numero che esprime la quantità delle sue ripetizioni nel corso dell’indagine.

La frequenza relativa di un dato è espressa dal rapporto fra la sua frequenza assoluta e il totale delle frequenze

La frequenza percentuale di un dato è la sua frequenza relativa espressa in percentuale

La moda dell’indagine è il dato che si presenta con maggiore frequenza.

I grafici da utilizzare sono gli Istogrammi e gli Ideogrammi.

Per rappresentare la distribuzione delle frequenze percentuali, è opportuno usare l’areogramma.

L’ampiezza dei settori circolari si può determinare facilmente con la proporzione:



Dove:

il primo termine è l’ampiezza del settore circolare relativo al dato

il terzo termine è la frequenza percentuale dello stesso dato

Indagine statistica a variabile quantitativa



Anche in questo tipo d’indagine si deve individuare la moda:

……………………………..............................................................................................

Nelle indagini a variabile quantitativa è necessario individuare la mediana:

Essa è espressa dalla frequenza del dato centrale della distribuzione. Per determinarla è necessario riscrivere tutti i dati in ordine crescente e scegliere quello che occupa il posto centrale (se i dati sono in numero dispari), oppure si scelgono i due dati centrali e si divide la loro somma per due (se i dati sono in numero pari).

Mediana

……………………………..............................................................................................

……………………………..............................................................................................

……………………………..............................................................................................

……………………………..............................................................................................

Successivamente è opportuno calcolare la media aritmetica ponderata: si addizionano tutti i dati e si divide la somma per il numero dei dati;

……………………………..............................................................................................

La conoscenza della media permette di calcolare la deviazione di ogni dato, cioè la differenza fra il valore del dato e la media.

La deviazione, in base a quanto è maggiore o minore della media, dà un segnale di attendibilità del dato stesso ai fini dell’indagine statistica.

Se la moda, la mediana e la media hanno valori vicini fra loro allora si può dire che il fenomeno su cui si sta indagando ha una distribuzione normale di dati.

Moda, mediana e media sono i valori significativi dell’indagine perché permettono di ricavare altre informazioni:

La moda è il dato che ha maggiore frequenza e quindi è il più rilevante ( Conoscerlo ad esempio è importante per un gestore di sale cinematografiche perché se la Commedia è la moda, gli converrà programmare spettacoli di questo genere piuttosto che altri).

La mediana, poiché si trova a metà della distribuzione, con il suo valore farà comprendere, se è basso, che la maggior parte dei dati è costituita da valori piccoli. Viceversa se è grande.

La media, se è inferiore alla mediana, farà scoprire che i dati con valore superiore alla media sono più numerosi di quelli inferiori. Se la media è superiore alla mediana, ciò vorrà dire che i dati con valore inferiore alla media sono più numerosi di quelli superiori.

Tipi di dati di variabili quantitative

Le variabili quantitative possono essere di due tipi:

Discreti, se il loro valore è espresso da numeri interi (discreta è una grandezza che non presenta continuità: essa non varia gradualmente come un piano inclinato, ma a salti, a gradini come una scala). In questo caso la distribuzione non è molto vasta. ( Ad esempio il numero delle persone che esercitano le varie professioni)

Continui, se il loro valore è espresso da numeri anche decimali (Ad esempio l’indagine sull’altezza degl’italiani presenterà valori differenziati per pochi centesimi: 1,70-1,71-1,75 ) che si ripeteranno non molto frequentemente e perciò la distribuzione sarà molto più vasta di quella con dati discreti.


Elaborazione dei dati continui

Le indagini statistiche a variabili quantitative con dati continui presentano una distribuzione così vasta di dati dispersi e così vari da non essere gestibili facilmente per ricavare informazioni utili. Questo inconveniente si può eliminare mettendo ordine fra i dati attraverso il loro raggruppamento in classi .

Ad esempio in questa rilevazione statistica riguardante la statura di un gruppo di ragazzi di quindici anni di età, la variabile è quantitativa e continua:

L’osservazione dei dati dimostra che sono quasi tutti diversi fra loro e perciò non avrebbe senso rilevare la frequenza per ciascuno di essi.

Quello che conviene fare è semplificare l’osservazione attraverso il raggruppamento dei dati in classi di statura. Per fare questo, prima di tutto, si devono riscrivere i dati in ordine crescente.

L’intervallo numerico fra il dato più piccolo e quello più grande è il campo di variazione :

La differenza fra il dato maggiore e quello minore è l’ampiezza del raggruppamento

Il numero delle classi non deve essere troppo grande perché ciò non eliminerebbe l’eccessiva dispersione dei dati.

Normalmente esse sono stabilite fra 5 e 15 ( in casi straordinari si può arrivare anche a 20).

Una semplice regola pratica consiste nel fissare il numero delle classi k in quantità prossima alla radice quadrata del numero dei dati:

Nel caso precedente:

Da questo si ricava che l’ampiezza di ogni classe deve essere:

Ciò vuol dire che la differenza fra l’estremo superiore ed inferiore della classe deve essere di 0,03 m.

Il raggruppamento in classi sarà:

Con questa suddivisione in classi si può costruire una tabella delle distribuzioni di frequenza in cui si calcoleranno sia la frequenza relativa che quella percentuale di ogni classe.

Anche qui si effettua la rielaborazione dei dati:

La moda, qui ,si chiama Classe modale ed è la classe in cui si riscontra il maggior numero di frequenze: ……………………………..............................................................................................

La mediana s’individua nel modo già noto:

……………………………......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

La media aritmetica (facendo la somma di tutti i dati e dividendo tale somma per il numero dei dati)

……………………………............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

Si può rappresentare la distribuzione delle frequenze per mezzo di un istogramma:

Unendo il punto medio della parte alta di ciascuna colonna si ottiene una curva particolare che, se assume la forma di una campana, vuol significare che la distribuzione delle frequenze è normale.