Distribuzioni di frequenze - Dipartimento di Economia, Statistica e
Transcript
Distribuzioni di frequenze - Dipartimento di Economia, Statistica e
Capitolo 2
Dati e Tabelle
Dati e Tabelle
La Descrizione della
Popolazione
La descrizione di una popolazione passa attraverso due fasi:
1. la formazione dei dati statistici
2. la sintesi dei dati
La formazione del dato statistico prevede:
(i)
l’osservazione del fenomeno oggetto di studio sulle unità del
collettivo statistico;
(ii) l’annotazione sistematica, unità per unità, della modalità
rilevata.
Il processo di rilevazione dei dati sulle unità statistiche si realizza
usualmente tramite la compilazione di questionari.
Per ogni unità statistica si dispone, in generale, di un’ingente mole
di informazioni che occorre organizzare sistematicamente al fine
di renderne agevole l’elaborazione.
Data Set
Insieme dei dati relativi ai caratteri rilevati su una stessa
popolazione.
2
Dati e Tabelle
Un data set può essere assimilato ad una tabella, chiamata
Matrice dei Dati, formata da n righe e r colonne, in cui:
(a) ogni riga riporta le informazioni alfanumeriche relative
alla singola unità statistica;
(b) ogni colonna riporta i valori dei caratteri osservati sulle
diverse unità statistiche;
(c) ogni cella contiene il valore di una singola variabile
rilevato su una determinata unità statistica
X1
X2
…
Xj
…
Xr
u1
x11
x12
…
x1j
…
x1r
u2
x21
x22
…
x2j
…
x2r
Matrice dei
Dati
...
...
...
...
...
...
...
X = xij
xir
...
…
...
xij
...
…
...
xi2
...
xi1
...
ui
{ }
( n× r )
...
Unità Statistiche
Caratteri
un
xn1
xn2
…
xnj
…
xnr
Se r = 1 → Analisi Descrittiva Univariata
Se r = 2 → Analisi Descrittiva Bivariata
3
Dati e Tabelle
Esempio 2.1______Matrice dei Dati ___________________
Indagine sulla Struttura e Produzione delle Aziende Agricole in
Calabria
Caratteristiche dell’indagine
• Natura della rilevazione: campionaria
• Unità statistiche: aziende agricole della Calabria
• Numero di aziende agricole rilevate: 2984
• Variabili rilevate: 200
• Natura della variabili: qualitative e quantitative
Variabili Presentate
1.
Comune e Provincia in cui si trova l’azienda
2.
Comune di residenza del titolare dell’azienda
3.
Estensione (in ettari) della superficie di proprietà dell’azienda
4.
Estensione della superficie concessa in affitto all’azienda
5.
Estensione della superficie concessa a titolo gratuito all’azienda
6.
Estensione totale della superficie dell’azienda
7.
Estensione della SAU (Superficie Agricola Utilizzata) totale
dell’azienda
8.
Estensione della SAU concessa in affitto all’azienda
9.
Estensione della SAU concessa a titolo gratuito all’azienda
10.
Estensione della SAU investita a seminativi
11.
Estensione della SAU destinata a coltivazioni
4
Dati e Tabelle
5
Dati e Tabelle
6
Dati e Tabelle
Problemi
La presentazione delle informazione sotto forma di matrice dei
dati non consente di far luce in maniera immediata su alcuni
aspetti delle variabili in esame.
Proviamo, ad esempio, a rispondere alle seguenti domande:
Qual è la forma di conduzione più frequente?
Qual è la percentuale di aziende che hanno una
superficie totale pari al più a 50 ettari e si presentano
come ditte individuali?
Tra le aziende individuali, qual è la percentuale di
quelle che hanno una superficie pari al più a 50 ettari?
Per dare una risposta
occorre organizzare i
dati in maniera più
sintetica
COME?!?!
7
Dati e Tabelle
Accorpando in classi omogenee le
diverse modalità
del carattere e associando ad ognuna
di essa il numero di volte che è stata
rilevata sulle unità statistiche
8
Dati e Tabelle
Lo Spoglio dei Dati
L’operazione di accorpamento dei casi identici corrisponde ad
una fase ben precisa dell’indagine statistica. Tale fase è nota
come
Classificazione o Spoglio dei Dati
Per semplicità, consideriamo il caso in cui si è interessati
all’analisi di un solo carattere ( r = 1).
Allora, è facile rendersi conto che lo spoglio dei dati
rappresenta il primo processo di sintesi dei dati perché consente
di passare da un elenco grezzo di modalità ad un prospetto
organizzato.
9
Dati e Tabelle
Operativamente lo spoglio dei dati si realizza in due passi:
1. la predisposizione di una lista esaustiva delle diverse
modalità del carattere in esame
2. il conteggio delle unità che presentano la medesima modalità
Sempre nel caso di un solo carattere in esame, il risultato
dell’operazione di spoglio è una tabella costituita da due colonne e
da tante righe quante sono le diverse modalità del carattere in
esame.
In particolare:
9 sulla prima colonna si riporteranno le k diverse modalità
del carattere, x1 , x2 ,..., xi ,..., xk , xi ≠ x j ;
9 sulla seconda colonna si riporteranno, in corrispondenza di
ogni modalità, il numero di volte che questa si è presentata
nel collettivo.
Il prospetto ottenuto è detto
Distribuzione di Frequenze
10
Dati e Tabelle
Esempio 2.2_______Distribuzione di Frequenze_________
Indagine sulla Struttura e Produzione delle Aziende Agricole in
Calabria
Proviamo a dare una risposta al primo quesito che ci siamo posti.
Lo spoglio dei dati relativo alla variabile qualitativa Forma di
Conduzione dell’Azienda Agricola, ha dato luogo alla seguente
distribuzione di frequenze
Forma di Conduzione
Dell’Azienda
Numero
Aziende
Colonia parziaria appoderata
10
Con salariati
294
Diretta con manodopera
extrafamiliare prevalente
515
Diretta con manodopera familiare
prevalente
393
Diretta con solo manodopera
familiare
1772
Totale
2984
Tabella 2.1
11
Dati e Tabelle
La distribuzione delle frequenze ha permesso di sintetizzare un
elenco di 2984 dati (le modalità per ogni singola azienda,
x1 , x2 ,..., xi ,..., x2854 ) in una tabella di ridotte dimensioni e di
facile lettura.
Tuttavia, ogni processo di sintesi presenta un prezzo da
pagare in termini di perdita di informazioni.
Dalla tabella non è più possibile risalire all’azienda su cui è
stata rilevata una determinata modalità !!!
____________________________________________________________
12
Dati e Tabelle
Esempio 2.3_______Distribuzione di Frequenze_________
Su un collettivo statistico costituito da 50 famiglie è stato rilevato
il carattere “Numero di Figli”, ottenendo il seguente elenco
grezzo di modalità:
3 1 3 2 2 0 2 1 5 4 2 2 3 1 1 2 2 0 2 1 4 2 1 2 1
4 3 2 1 3 0 4 3 2 0 3 2 2 1 2 3 1 0 2 2 1 2 2 1 3
La distribuzione di frequenze è la seguente:
Modalità
Distinte
Numero Numero
di figli di famiglie
0
5
1
12
2
19
3
9
4
4
5
1
Totale
50
Distribuzione semplice
per unità o elenco grezzo
di modalità
Frequenze
Assolute
Numerosità
del collettivo
Tabella 2.2
Una distribuzione di frequenze indica come le unità del collettivo
statistico si distribuiscono tra le diverse modalità del carattere.
____________________________________________________________
13
Dati e Tabelle
In generale, una distribuzione di frequenze per un carattere con k
modalità distinte si presenta nella forma:
i-esima
modalità
X
x1
x2
ni
n1
n2
…
…
xi
ni
...
…
xk
nk
Totale
n
i-esima
frequenza assoluta
k
n = ∑ ni
i =1
Nel prosieguo indicheremo con:
9 xi la i-esima modalità del carattere, i=1,2,…,k;
9 ni la i-esima frequenza assoluta, i=1,2,…,k.
La frequenza assoluta ni indica equivalentemente:
•
il numero di volte che la modalità xi è stata rilevata sul
collettivo statistico formato da n unità;
•
il numero di unità statistiche che presentano le stessa
modalità xi .
14
Dati e Tabelle
Distribuzione di frequenze
Si definisce distribuzione di frequenze del carattere X la
successione del numero di unità statistiche che si hanno in
corrispondenza delle diverse modalità del carattere, ovvero
l’insieme costituito delle coppie:
{ ( x1 , n1 ), ( x2 , n2 ),..., ( xk , nk ) }
15
Dati e Tabelle
Distribuzioni in classi di modalità
Nel caso in cui le modalità di una variabile siano molto numerose,
può essere utile determinare classi di modalità a cui assegnare le
unità
Tale procedimento consente di effettuare un’ulteriore sintesi
dei dati
Generalmente, alla suddivisione in classi di modalità si ricorre
quando il carattere è quantitativo:
9 continuo
9 discreto con numerose modalità
Nella costruzione delle classi occorre attenersi ad alcuni aspetti:
1.
nessuna classe deve essere vuota;
2.
le classi devono essere contigue, disgiunte ed esaustive;
3.
devono avere possibilmente la stessa ampiezza;
4.
il numero di classi deve essere tale da consentire
un’adeguata sintesi dei dati senza comportare una
eccessiva perdita di informazioni;
16
Dati e Tabelle
Esempio 2.4__Classi di Modalità per un Carattere Continuo
Su un collettivo statistico formato da 200 individui è stato rilevato
il carattere continuo Altezza (espresso in cm.), ottenendo il
seguente elenco grezzo di modalità:
81,46
199,43
183,18
182,67
176,50
203,27
165,69
208,43
165,00
128,92
77,35
176,85
163,94
199,69
188,48
192,04
192,21
149,78
155,16
126,57
73,02
200,17
174,61
159,04
183,91
198,59
117,11
128,65
161,63
119,61
71,36
179,01
166,20
147,06
165,99
208,89
138,04
178,11
144,50
146,26
87,89
190,08
168,53
139,88
158,27
200,71
184,28
181,60
166,90
155,29
70,97
165,26
177,60
155,00
215,25
203,64
147,00
181,38
144,12
161,36
96,97
196,08
169,05
197,58
121,00
199,29
147,32
145,80
163,46
178,83
74,92
171,93
165,01
167,72
183,18
198,20
172,53
194,63
123,98
114,21
96,54
204,52
175,86
207,99
157,38
191,21
154,99
141,88
174,68
168,23
76,59
213,43
128,75
179,37
129,08
203,88
169,92
157,36
188,78
123,79
98,75
209,08
167,22
166,99
176,95
195,01
141,96
127,86
185,09
147,93
70,51
216,30
201,33
156,51
116,86
191,26
167,42
163,88
166,56
190,42
70,43
208,04
144,52
149,72
187,96
207,38
200,60
199,38
185,24
112,49
78,55
181,64
162,90
208,00
153,66
208,52
139,43
195,21
188,45
184,53
82,22
196,49
161,84
140,62
177,16
201,73
157,27
199,03
186,48
128,74
80,29
154,06
170,66
197,84
133,90
190,57
150,04
167,63
186,68
170,87
95,90
195,45
146,02
139,87
164,94
205,98
140,33
165,53
158,18
163,55
86,61
177,58
156,95
158,19
189,07
196,71
139,08
162,88
169,16
107,27
74,16
194,70
128,10
173,42
171,75
196,20
144,39
190,84
142,17
121,86
80,72
162,62
201,21
212,91
174,83
209,99
196,55
119,97
172,41
169,40
Ampiezza classe
Estremo Superiore Classe – Estremo Inferiore Classe
ai = xi + 1 − xi
17
Dati e Tabelle
Distribuzioni in classi di ampiezza diversa
Classe
Ampiezza
xi − | xi + 1
ni
70 -| 100
100 -| 120
120 -| 140
140 -| 170
170 -| 180
180 -| 200
200 -| 220
Totale
20
7
18
65
21
45
24
200
ai
Per un carattere continuo
suddiviso in classi, l’ampiezza
della classe rappresenta il
numero di intervalli unitari
che ricadono nella classe
medesima.
30
20
20
30
10
20
20
Tabella 2.3
Distribuzioni in classi di uguale ampiezza
Classe
xi − | xi + 1
ni
70 -| 85
85 -| 100
100 -| 115
115 - | 130
130 -| 145
145 -| 160
160 -| 175
175 -| 190
190 -| 205
205 -| 220
Totale
14
6
3
16
15
25
41
29
37
14
200
Ampiezza
ai
15
15
15
15
15
15
15
15
15
15
Tabella 2.4
18
Dati e Tabelle
Notazione
Nello stabilire gli estremi della classe occorre tenere presente che
ognuna delle determinazione osservate del carattere deve essere
compresa in una sola classe. Nel caso di caratteri continui si rende
allora necessario includere nella stessa classe uno solo dei due
estremi dell’intervallo.
Notazione
xi − | xi + 1
( xi , xi + 1 ]
xi | − xi + 1
[ xi , xi + 1 )
Estremo
Inferiore
Estremo
Superiore
Ampiezza
Classe
Escluso
Incluso
xi + 1 − xi
Incluso
Escluso
xi + 1 − xi
Tuttavia, da un punto di vista teorico, per un carattere continuo
indicare specificamente quale estremo considerare è di scarsa
rilevanza.
19
Dati e Tabelle
Esempio 2.5__Classi di Modalità per un Carattere Discreto_
Ad gruppo di studenti iscritti al Corso di Laurea Triennale in
Economa Aziendale è stato chiesto il Numero di Crediti Formativi
ottenendo il seguente elenco grezzo di modalità:
0
71
19
27
9
10
18
27
10
17
18
18
84
27
9
30
33
30
48
66
58
30
15
36
156
18
18
92
41
179
26
10
10
27
52
18
6
9
48
123
78
72
41
60
120
72
48
12
117
171
45
13
13
53
60
13
57
103
169
9
67
180
79
12
18
90
21
9
81
141
13
13
130
169
84
6
12
30
33
75
84
60
99
180
10
19
32
62
55
10
19
24
113
30
114
56
84
104
114
66
99
144
36
132
90
16
12
6
9
6
6
9
39
36
51
72
36
150
42
171
16
5
3
10
179
68
86
26
39
82
91
14
136
41
139
116
152
110
141
50
24
143
15
73
150
55
18
18
24
10
Classe
ni
0 |−| 20
20 −| 50
50 −| 100
100 −| 125
125 −| 155
155 −| 180
Totale
Ampiezza
50
33
37
10
11
9
150
ai
21
30
50
25
30
25
Tabella 2.5
L’ampiezza della classe
rappresenta il numero di
modalità
distinte
che
ricadono nella classe.
20
Dati e Tabelle
La tabella precedente poteva essere anche riportata nel modo
seguente:
Classe
ni
0 - 20
21 − 50
51 − 100
101 − 125
126 − 155
156 − 180
Totale
50
33
37
10
11
9
150
Ampiezza
ai
(20-0)+1=21
(50-21)+1=30
(100-51)+1=50
(125-101)+125
(155-126)+1=29
(180-156)+1=25
Tabella 2.6
in cui entrambi gli estremi della classe sono inclusi.
Riepilogando
Notazione
xi − | xi + 1
( xi , xi + 1 ]
x |−|x
i
Estremo
Inferiore
Estremo
Superiore
Ampiezza
Classe
Escluso
Incluso
xi + 1 − xi
Incluso
Incluso
( xi + 1 − xi ) + 1
i +1
[ xi , xi + 1 ]
___________________________________________
21
Dati e Tabelle
Determinazione del numero delle classi
Come ogni processo di sintesi, la suddivisione del collettivo
statistico in classi di modalità comporta una perdita di
informazione.
In particolare, il raggruppamento delle unità statistiche non
consente di conoscere le “vere” modalità del carattere che le unità
ricadenti in una classe assumono.
9
Così, ad esempio, relativamente distribuzione riportata
nella tabella 2.5, non è dato conoscere la vera altezza dei
65 individui che ricadono nella classe 140 -| 170.
9
Inoltre, per quanto già detto in precedenza, non è possibile
risalire agli individui che hanno un’altezza compresa tra
140 e 170 cm.
22
Dati e Tabelle
L’ammontare della perdita di informazioni e il livello della sintesi
determinati dal raggruppamento dipendono dal numero delle
classi:
Numero
Classi
Ampiezza
Classe
Perdita di
Informazioni
Livello della
Sintesi
Grande
Si riduce
Scarsa
Scarso
Piccolo
Aumenta
Elevata
Elevato
Occorre pertanto trovare un giusto compromesso che consenta
di sintetizzare opportunamente i dati senza pregiudicare
eccessivamente la perdita di informazioni.
23
Dati e Tabelle
Prima di concludere è opportuno far presente che raggruppamenti
in classi più ampie, possono rendersi necessari anche per i
caratteri qualitativi.
Si pensi, ad esempio, alla classificazione ATECO della attività
economiche (http://www.istat.it/Definizion/index.htm) oppure alle
alla classificazione delle professioni di cui si riporta il seguente
prospetto (Fonte: http://www.istat.it/Definizion/index.htm)
Grandi Gruppi
I – Legislatori, dirigenti e
imprenditori
II – Professioni intellettuali,
scientifiche e di elevata
specializzazione
III – Professioni tecniche
IV – Impiegati
V – Professioni qualificate
nelle attività commerciali e
nei servizi
VI – Artigiani, operai
specializzati e agricoltori
VII – Conduttori di impianti e
operai semiqualificati
addetti a macchinari fissi
e mobili
VIII – Professioni non
qualificate
IX – Forze Armate
Totale
Gruppi Classi
Categorie
Voci
Professionali
3
8
48
319
6
17
69
679
4
2
17
6
92
37
901
185
5
11
47
478
6
24
108
1778
4
22
89
1431
6
15
28
440
1
37
1
121
1
519
89
6300
24
Dati e Tabelle
Le Frequenze Relative
Le frequenze assolute dipendono dalla numerosità del collettivo in
esame, nel senso che saranno piccole se il collettivo presenta una
dimensione ridotta, mentre saranno certamente maggiori se il
collettivo è grande.
Da ciò discendono alcuni inconvenienti. In particolare, le
frequenze assolute
non consentono di confrontare, rispetto al medesimo
carattere, due o più collettivi di numerosità diversa;
non forniscono una percezione immediata del “peso” che
ogni singola modalità ha all’interno della distribuzione di
frequenze.
Per ovviare a questi inconvenienti si considerano le frequenze
relative, che si ottengono rapportando le frequenze assolute alla
dimensione del collettivo.
La i-esima frequenza relativa è definita come:
fi =
ni
n
, i = 1,2 ,...,k .
25
Dati e Tabelle
Ovviamente vale quanto segue:
1.
0 ≤ fi ≤ 1
k
2.
∑ fi = 1
i =1
Infatti:
k
∑ fi = f1 + f 2 + ... + fi + ... + f k
i =1
=
n
n
n1 n2
+
+ ... + i + ... + k
n
n
n
n
=
1
(n1 + n2 + ... + ni + ... + nk ) = 1 n = 1
n
n
Se si moltiplicano le frequenze relative per 100 si ottengono le
frequenze relative percentuali:
pi = 100 × f i
, i = 1,2 ,...,k
Per costruzione le f i e le pi non dipendono dalla numerosità del
collettivo
26
Dati e Tabelle
Se si considerano solo la frequenze
relative (percentuali) si perde
un’informazione.
Quale?
27
Dati e Tabelle
Esempio 2.6________Distribuzione di Frequenze________
Riprendiamo l’esempio precedente e indichiamo il collettivo
esaminato di 50 famiglie come COLLETTIVO A.
Supponiamo ora che lo stesso carattere sia stato rilevato anche su
un secondo altro collettivo, che chiameremo COLLETTIVO B.
Poniamo a confronto le due distribuzioni:
0
1
2
3
4
5
Totale
Tabella 2.7
¾
¾
A
ni
5
12
19
9
4
1
50
B
X
0
1
2
3
4
5
Totale
ni
20
10
35
15
10
10
100
COLLETTIVO B
COLLETTIVO A
X
Tabella 2.8
E’ corretto affermare che la famiglie con un figlio sono
più numerose nel collettivo A?
E’ corretto affermare che la famiglie con due figli sono più
numerose nel collettivo B?
28
Dati e Tabelle
Costruiamo anzitutto le frequenze relative e quelle percentuali:
Collettivo A
Collettivo B
X
niA
fiA
p iA
niB
f iB
p iB
0
1
2
3
4
5
Totale
5
12
19
9
4
1
50
0.10
0.24
0.38
0.18
0.08
0.02
1
10%
24%
38%
18%
8%
2%
100%
20
10
35
15
10
10
100
0.20
0.10
0.35
0.15
0.10
0.10
1
20%
10%
35%
15%
10%
10%
100%
Tabella 2.9
¾
Nel collettivo A, le famiglie con un solo figlio rappresentano il 24% del totale delle famiglie del
collettivo, mentre nel collettivo B rappresentano il 10%. Pertanto, le famiglie con un solo figlio sono più
numerose nel collettivo A. L’affermazione è corretta.
¾
Nel collettivo A, le famiglie con due figli rappresentano il 38% del totale delle famiglie del collettivo,
mentre nel collettivo B rappresentano il 35%. Pertanto, le famiglie con due figli sono più numerose nel
collettivo A. L’affermazione è errata.
_______________________________________________________________________________
29
Dati e Tabelle
Le Frequenze Cumulate
Nel caso in cui le modalità del carattere in esame sono ordinate
(ossia il carattere è qualitativo ordinale o quantitativo) può essere
interessante considerare la frequenza con cui si presentano nel
collettivo in esame modalità inferiori o uguali ad un certa
modalità.
Relativamente al Collettivo A, proviamo a rispondere alle
seguenti domande:
D1.
Quante sono le famiglie che hanno al più un figlio?
D2.
Qual è la percentuale di famiglie che hanno al massimo due
figli?
D3.
Qual è la percentuale di famiglie che hanno almeno due
figli?
D4.
Quante sono le famiglie che hanno meno di tre figli?
D5.
Quante sono le famiglie che hanno non meno di 4 figli?
30
Dati e Tabelle
X
niA
fi A
piA
0
1
2
3
4
5
Totale
5
12
19
9
4
1
50
0.10
0.24
0.38
0.18
0.08
0.02
1
10%
24%
38%
18%
8%
2%
100%
Tabella 2.10
R1 Quante sono le famiglie che hanno al più un figlio?
Freq{ X ≤ 1 } = 5 + 12 = 17
R2 Qual è la percentuale di famiglie che hanno al massimo
due figli?
5 + 12 + 19
36
Freq%{ X ≤ 2 } =
× 100 =
× 100 = 72%
50
50
oppure in maniera equivalente:
Freq%{ X ≤ 2 } = ( 0.10 + 0.24 + 32 ) × 100 = 72%
Freq%{ X ≤ 2 } = 10% + 24% + 38% = 72%
31
Dati e Tabelle
R3 Qual è la percentuale di famiglie che hanno almeno due
figli?
Freq%{ X ≥ 2 } = ( 0.38 + 0.18 + 0.08 + 0.02 ) × 100
= 0 ,66 × 100 = 66%
oppure, in alternativa:
Freq%{ X ≥ 2 } = 100 − Freq%{ X < 2 }
= 100 − Freq%{ X ≤ 1 } = 100 −
17
100
50
33
⎛ 17 ⎞
= 100 ⎜ 1 − ⎟ = 100
= 66%
50
⎝ 50 ⎠
R4 Quante sono le famiglie che hanno meno di tre figli?
Freq{ X < 3 } = 5 + 12 + 19 = 36
R5 Quante sono le famiglie che hanno non meno di 4 figli?
Freq{ X ≥ 4 } = 4 + 1 = 5
32
Dati e Tabelle
Dato un carattere X con k modalità ordinate in senso crescente, sia
{ ( xi ,ni ) ,
i = 1,2 ,..., k
}
la
corrispondente
distribuzione
di
frequenze.
Possiamo allora definire le seguenti frequenze:
Frequenze Cumulate Assolute
i
Ni = ∑ n j
i = 1,2,..., k
j =1
Frequenze Cumulate Relative
i
Fi = ∑ f j =
j =1
Ni
n
i = 1,2,..., k
Frequenze Retrocumumale Assolute
Ri = n − N i −1
i = 2,..., k
Frequenze Retrocumumale Relative
ri =
Ri
n
i = 2,..., k
33
Dati e Tabelle
Tabella Riepilogativa delle Diverse Tipologie di Frequenze
Ni
Fi
Ri
ri
Cumulate
Assolute
Cumulate
Relative
Retrocumulate
Assolute
Retrocumulate
Relative
ni
fi
pi
Assolute
Relative
Percentuali
x1
n1
f1 = n1 / n
x2
n2
f 2 = n2 / n p 2 = f 2 × 100 N 2 = N 1 + n 2
…
…
…
xi
ni
f i = ni / n
...
…
...
xk
nk
Tot.
n
X
p1 = f 1 × 100 N 1 = n1
…
…
pi = f i × 100 N i = N i −1 + n i
…
f k = nk / n pk = f k × 100
...
Nk = n
F1 = f 1
R1 = n
r1 = 1
F2 = N 2 /n
R 2 = n − N1
r2 = R 2 /n
…
Fi = N i /n
…
R i = n − N i −1
…
ri = R i /n
…
Fk = 1
…
Rk = nk
rk = f k
1
34
Dati e Tabelle
Relazioni Ricorsive
Tra le frequenze assolute [relative, percentuali] e quelle cumulate
assolute [relative, percentuali] esistono semplici relazioni,
esprimibili nelle forme:
N i = N i −1 + ni
ni = N i − N i −1
Infatti, per definizione
N i = n1 + n2 + ... + ni − 1 + ni = N i − 1 + ni
144
42444
3
N i −1
Dalla precedente relazione segue subito che ni = N i − N i −1 .
Identiche relazioni valgono, ovviamente, per Fi
Inoltre dalle retrocumulate
N i −1 = n − Ri
35
Dati e Tabelle
Le Frequenze Specifiche o Densità di
Frequenze
Per un carattere quantitativo suddiviso in classi oltre alle
frequenze assolute, relative e cumulate (assolute e relative) si
possono definire ulteriori tipologie di frequenze:
Densità di Frequenza Assolute
H =
i
n
a
, i = 1,2,..., k
i
i
Densità di Frequenza Relative
h =
i
f
a
, i = 1,2,..., k
i
i
Densità di Frequenza Percentuali
h = 100 × h
p
i
i
, i = 1,2,..., k
Queste ultime, risultano più semplici da trattare e da interpretare
rispetto alle h
i
36
Dati e Tabelle
Interpretazione delle frequenze specifiche
Le frequenze specifiche servono a valutare il grado di addensamento delle unità statistiche
all’interno delle classi.
Carattere
H
i
h
i
p
hi
Ipotesi
Esprime la frequenza Esprime la frequenza
Esprime la
assoluta imputabile relativa imputabile ad percentuale di unità
Discreto
ad ogni singola
ogni singola modalità imputabile ad ogni
modalità che ricade
che ricade nella
singola modalità che Uniforme
nella classe
classe
ricade nella classe distribuzione
delle unità
Esprime la frequenza Esprime la frequenza
Esprime la
all’interno
assoluta imputabile relativa imputabile ad percentuale di unità della classe
Continuo ad ogni intervallo
imputabile ad ogni
ogni intervallo
unitario che ricade
unitario che ricade intervallo unitario che
ricade nella classe
nella classe
nella classe
37
Dati e Tabelle
Esempio 2.7_____________________Frequenze Cumulate _____________________
Riprendiamo gli esempi 2.4 e 2.5 relativi alle distribuzioni in classi di modalità per i caratteri
Altezza e Numero di Crediti Formativi.
xi − | xi + 1
ni
fi
Ni
Fi
Pi
70 -| 100
100 -| 120
120 -| 140
140 -| 170
170 -| 180
180 -| 200
200 -| 220
Totale
20
7
18
65
21
45
24
200
0,1
0,035
0,09
0,325
0,105
0,225
0,12
1
20
27
45
110
131
176
200
0,1
0,135
0,225
0,55
0,655
0,88
1
0,1
14%
23%
55%
66%
88%
100%
45 individui su 200 hanno
un’altezza pari al più a
140 cm.
Il 55% degli individui è
alto al massimo 170 cm.
Tabella 2.11
38
Dati e Tabelle
xi − | xi + 1
ni
fi
Ni
Fi
Pi
0 |-| 20
20 -| 50
50 -| 100
100 -| 125
125 -| 155
155 -| 180
Totale
50
33
37
10
11
9
150
0,3333
0,2200
0,2467
0,0667
0,0733
0,0600
1,000
50
83
120
130
141
150
0,3333
0,5533
0,8000
0,8667
0,9400
1,0000
33,33%
55,33%
80,00%
86,67%
94,00%
100,00%
Tabella 2.12
39
Dati e Tabelle
Esempio 2.8____________________Frequenze Specifiche______________________
Completiamo la tabella relativa al carattere Altezza
1.
xi − | xi + 1
ni
fi
70 -| 100
100 -| 120
120 -| 140
140 -| 170
170 -| 180
180 -| 200
200 -| 220
Totale
20
7
18
65
21
45
24
200
0,1
0,035
0,09
0,325
0,105
0,225
0,12
1
ai
H
30
20
20
30
10
20
20
0,667
0,350
0,900
2,167
2,100
2,250
1,2
i
h
i
0,0033
0,0018
0,0045
0,0108
0,0105
0,0113
0,0060
hip
0,33%
0,18%
0,45%
1,08%
1,05%
1,13%
0,60%
2.
3.
4.
Tabella 2.13
5.
Qual è il significato delle
frequenze evidenziate?
Determinare il numero di
individui che hanno un
altezza compresa tra 170 e
171 cm;
Determinare
la
percentuale di individui
che hanno un’altezza
compresa tra 110 e 111
cm;
Determinare
la
percentuale di individui
che hanno un’altezza
compresa tra 110 e 115
cm;
Determinare
la
percentuale di individui
40
Dati e Tabelle
Completiamo la tabella relativa al carattere Numero di Crediti
xi − | xi + 1
ni
fi
ai
H
0 |-| 20
20 -| 50
50 -| 100
100 -| 125
125 -| 155
155 -| 180
Totale
50
33
37
10
11
9
150
0,3333
0,2200
0,2467
0,0667
0,0733
0,0600
1
21
30
50
25
30
25
2,381
1,100
0,740
0,400
0,367
0,360
Tabella 2.14
i
h
hip
0,0159
0,0073
0,0049
0,0027
0,0024
0,0024
1,59%
0,73%
0,49%
0,27%
0,24%
0,24%
i
1. Qual è il significato delle
frequenze evidenziate?
2. Determinare il numero di
studenti che hanno 7 crediti;
3. Determinare la percentuale di
studenti un numero di crediti
compreso tra 50 e 55 (estremi
inclusi);
4. Determinare la percentuale di
studenti che hanno meno di 7
crediti;
5. Determinare la percentuale di
studenti che hanno almeno 175
crediti.
41
Dati e Tabelle
Tabelle riassuntive per gli esempi sui caratteri
Numero di Crediti e Altezza
crediti
ei
es
ni
fi
Ni
Fi
0.0
20.0
50
0.333
50
0.33
150
1.00
21.0
0.0159
2.3810
20.0
50.0
33
0.220
83
0.55
100
0.67
30.0
0.0073
1.1000
50.0
100.0
37
0.247
120
0.80
67
0.45
50.0
0.0049
0.7400
100.0
125.0
10
0.067
130
0.87
30
0.20
25.0
0.0027
0.4000
125.0
155.0
11
0.073
141
0.94
20
0.13
30.0
0.0024
0.3667
155.0
180.0
9
0.060
150
1.00
9
0.06
25.0
0.0024
0.3600
150
Ri
ri
amp
hi
Hi
1.000
altezza
ei
es
ni
fi
Ni
70.0
100.0
20
0.100
20
0.10
200
1.00
30.0
0.0033
0.6667
100.0
120.0
7
0.035
27
0.14
180
0.90
20.0
0.0018
0.3500
120.0
140.0
18
0.090
45
0.23
173
0.87
20.0
0.0045
0.9000
140.0
170.0
65
0.325
110
0.55
155
0.78
30.0
0.0108
2.1667
170.0
180.0
21
0.105
131
0.66
90
0.45
10.0
0.0105
2.1000
180.0
200.0
45
0.225
176
0.88
69
0.35
20.0
0.0113
2.2500
200.0
220.0
24
0.120
200
1.00
24
0.12
20.0
0.0060
1.2000
200
Fi
Ri
ri
amp
hi
Hi
1.000
quali frequenze vanno confrontate tra le assolute e le specifiche per avere informazioni sul reale “peso” da attribuire alle classi
evidenziate?
42
Dati e Tabelle
Distribuzioni di Quantità
La tabella che segue riporta il valore (in milioni di euro) delle
esportazioni della Regione Calabria relative all’anno 2003 e
distinte per settore.
Settori
Prodotti agricoli, dell’allevamento e della pesca
Prodotti industria estrattiva
Alimentari, bevande e tabacco
Prodotti tessili
Articoli di abbigliamento
Calzature e prodotti in pelle cuoio
Prodotti in legno e sughero (esclusi mobili)
Prodotti in carta, stampa ed editoria
Prodotti petroliferi raffinati
Prodotti chimici e farmaceutici
Prodotti in gomma e plastica
Vetri, ceramica e materiali non metallici per l’edilizia
Metalli e prodotti in metallo
Macchine e apparecchi metallici
Macchine e apparecchi elettrici di precisione
Autoveicoli
Altri mezzi di trasporto
Mobili
Altri manufatti
Altri prodotti
Totale
Valori
(in milioni di
euro)
45
2
49
14
4
1
3
1
0
59
28
5
7
53
12
4
4
5
2
12
310
Tabella 2.15 (Fonte: http://www.ice.gov.it/studi/bollettino/menu.htm)
43
Dati e Tabelle
La differenza con le tabelle analizzate in precedenza, in cui è stata
considerata la distribuzione del totale delle unità statistiche fra le
modalità del carattere (distribuzioni di frequenze), è notevole.
Infatti, nell’esempio delle esportazioni, il totale che viene ripartito
non riguarda il numero delle unità statistiche, bensì la somma del
valore delle esportazioni (309 milioni di euro).
Lo scopo che si vuole raggiungere con la tabella è quello di
analizzare la ripartizione del valore complessivo delle
esportazioni in base al settore di appartenenza
Ad una tabella di questo tipo si da il nome di distribuzione di
quantità.
Una distribuzione di quantità è il risultato di due operazioni
1. Classificazione
Si suddivide il collettivo in classi
44
Dati e Tabelle
2. Misurazione
Si quantifica, per ogni classe creata, l’ammontare di un
carattere.
Il carattere rispetto a cui si fa la classificazione può essere diverso
da quello che viene misurato e poi sommato in ogni classe.
Il nome “distribuzione” fa riferimento al modo in cui
l’ammontare globale di un carattere si ripartisce tra le
classi/modalità del carattere di classificazione.
Per una distribuzione di quantità, detto Q il carattere oggetto di
studio, TQ il suo totale e Qi la misurazione (intensità) di esso
in corrispondenza della i-esima occorre tenere presente che le Qi
non sono frequenze assolute e, quindi, non ha alcun senso
calcolare le frequenze relative e percentuali.
Il rapporto
Qi
qi =
TQ
45
Dati e Tabelle
indica la “quota parte” dell’ammontare complessivo TQ spettante
alla i-esima classe.
46
Dati e Tabelle
Settori
Prodotti agricoli, dell’allevamento e della pesca
Prodotti industria estrattiva
Alimentari, bevande e tabacco
Prodotti tessili
Articoli di abbigliamento
Calzature e prodotti in pelle cuoio
Prodotti in legno e sughero (esclusi mobili)
Prodotti in carta, stampa ed editoria
Prodotti petroliferi raffinati
Prodotti chimici e farmaceutici
Prodotti in gomma e plastica
Vetri, ceramica e materiali non metallici per l’edilizia
Metalli e prodotti in metallo
Macchine e apparecchi metallici
Macchine e apparecchi elettrici di precisione
Autoveicoli
Altri mezzi di trasporto
Mobili
Altri manufatti
Altri prodotti
Totale
Qi
qi
qi %
45
2
49
14
4
1
3
1
0
59
28
5
7
53
12
4
4
5
2
12
310
0,145
0,006
0,158
0,045
0,013
0,003
0,010
0,003
0,000
0,190
0,090
0,016
0,023
0,171
0,039
0,013
0,013
0,016
0,006
0,039
1
14,5%
0,6%
15,8%
4,5%
1,3%
0,3%
1,0%
0,3%
0,0%
19,0%
9,0%
1,6%
2,3%
17,1%
3,9%
1,3%
1,3%
1,6%
0,6%
3,9%
100%
Tabella 2.16
47
Dati e Tabelle
In alcuni casi il confine tra distribuzioni di quantità e distribuzioni
di frequenze è molto sottile.
Consideriamo, ad esempio, la tabella seguente in cui viene
riportato il numero di Immatricolati in alcune Università Italiane
nell’a.a. 2002/2003
Ateneo
Immatricolati
Incidenza Incidenza
relativa
%
Bari
7922
0,103
10,3%
Bologna
18013
0,235
23,5%
Calabria
5939
0,077
7,7%
Catania
9859
0,129
12,9%
Firenze
9547
0,124
12,4%
Lecce
5502
0,072
7,2%
Messina
6144
0,080
8,0%
Milano Bicocca
4855
0,063
6,3%
Milano Bocconi
2639
0,034
3,4%
Milano Politecnico
6281
0,082
8,2%
Totale
76701
1
100,0%
Tabella 2.17 (Fonte: Il Sole-24 Ore del 28/06/2004)
48
Dati e Tabelle
º
Se si assume come unità statistica il “singolo immatricolato”
rilevando su di esso il carattere “Ateneo di iscrizione” allora
la tabella è una distribuzione di frequenze
º
Se si assume come unità statistica il “singolo Ateneo” e si
rileva il carattere “Numero di Immatricolati”, allora la
tabella si configura una distribuzione di quantità
49
Dati e Tabelle
Consideriamo, ancora, la tabella successiva in cui viene riportato
il numero di ricoveri registrati in Italia per i primi 10 gruppi di
patologie:
Patologia
Ricoveri
Incidenza Incidenza
relativa
%
Malattie del sistema circolatorio
1458726
0,194
19,4%
Malattie dell’apparato digerente
933156
0,124
12,4%
Traumatismi e avvelenamenti
786625
0,105
10,5%
Tumori
779503
0,104
10,4%
Complicazioni della gravidanza,
parto e puerperio
771000
0,103
10,3%
Malattie dell’apparato respiratorio
672739
0,090
9,0%
Malattie dell’apparato genito-urinario
588548
0,078
7,8%
Malattie del sistema nervoso e degli
organi dei sensi
544031
0,072
7,2%
Malattie del sistema osteomuscolare
531811
0,071
7,1%
Sintomi, segni e stati morbosi mal
definiti
441072
0,059
5,9%
Totale
7507211
1
100%
Tabella 2.18 (Fonte: Il Sole-24 Ore del 22/03/2004)
50
Dati e Tabelle
9
Se si pone l’accento sul singolo ricovero, considerandolo
come una unità statistica, allora la tabella altro non è che la
distribuzione dei 7507211 ricoveri tra le 10 forme di
patologie. La tabella si presenta pertanto come distribuzione
di frequenze del carattere Patologia;
9
Se invece assumiamo come l’unità statistica la singola
patologia e come carattere oggetto di studio il numero di
ricoveri, allora la tabella si presenta come una distribuzione
di quantità, in quanto il numero dei ricoveri viene
considerato come una caratteristica delle patologie.
Unita
Carattere di
Statistica
studio
Distribuzione di
singolo
frequenze
ricovero
Distribuzione di
singola
numero di
quantità
patologia
ricoveri
patologia
51
Dati e Tabelle
Serie Storiche
Serie Storica o Temporale
Successione di valori di una variabile quantitativa rilevata in
diversi istanti temporali.
Esempio 2.9_________Serie Storiche_________________
Valore (in milioni di euro) delle esportazioni di merci della
Regione Calabria
Anno
Valore delle
Esportazioni
1999
230,7
2000
310,7
2001
296,3
2002
290,9
2003
309,2
Tabella 2.19 (Fonte: http://www.ice.gov.it/studi/bollettino/menu.htm)
52
Dati e Tabelle
Andamento dei mutui a tasso fisso e variabile
Anno
Tasso
Tasso
Fisso Variabile
1990
15,8
14,7
1991
14,6
13,5
1992
19,1
10
1993
12,4
11,3
1994
12,3
11,2
1995
12,7
11,6
1996
12,9
11,7
1997
10
9
1998
7,2
6,9
1999
5,8
4,6
2000
7,2
5,9
2001
6,7
5,5
2002
6,1
4,6
2003
5,13
3,85
Tabella 2.20 (Fonte: Il Sole-24 Ore del 26/04/2004)
53
Dati e Tabelle
Spesa per R&S in Italia e Germania (milioni di dollari)
Anno
Italia
Germania
1991
13449,5
42019
1992
13083,7
40864,9
1993
12347,5
39464,8
1994
11780,1
38773,2
1995
11522,8
39451,5
1996
11735,8
39728,3
1997
12500,4
40894,2
1998
12909,2
42134,5
1999
12798,7
45253,1
2000
13566,5
47653,3
Tabella 2.21 (Fonte: Il Sole-24 Ore del 3/05/2004)
____________________________________________________________________
Uno strumento utile per valutare le variazione del fenomeno
nel corso del tempo è costituito dai Numeri Indici
54
Dati e Tabelle
Serie Territoriali
Serie Territoriale
Successione di valori di una variabile quantitativa riferiti ad aree
geografiche diverse.
Esempio 2.10_________Serie Territoriali_______________
PIL procapite (in dollari) e popolazione (in milioni) di alcuni
paesi africani
Paese
PIL
Popolazione
Angola
660
13,1
Camerun
560
15,7
Eritrea
160
4,4
Etiopia
100
70,7
Kenia
360
31,6
Mali
240
11,6
Nigeria
290
12,1
Tabella 2.22 (Fonte: Il Sole-24 Ore del 22/03/2004)
55
Dati e Tabelle
Costo totale (in euro) dei ricoveri al 31/12/2002 sostenuto dalle
regioni del Mezzogiorno d’Italia
Regione
Costo Totale
Abruzzo
881.090.047
Molise
221.097.047
Campania
3.658.239.238
Puglia
2.399.922.865
Basilicata
408.984.770
Calabria
1.304.265.423
Sicilia
3.352.720.395
Sardegna
1.192.752.570
Tabella 2.23 (Fonte: Corriere della Sera del 22/09/2004)
____________________________________________________________________
56
Dati e Tabelle
Esercizio
1. Scrivere
2
distribuzioni
di
frequenze
ricavando tutte le frequenze presentate;
2. Scrivere 2 distribuzioni di frequenze in classi
di modalità e ricavare tutte le frequenze
presentate
3. Cercare sui quotidiani o su Internet due
distribuzioni di quantità, due serie storiche e
due serie territoriali.
Consiglio: fate l’esercizio e memorizzatelo !!!
57