Analisi statistica della Divina Commedia – parte 7

di Stefano Sampietro
 
Dante1L’analisi delle occorrenze
 
Poco prima di occuparci del grado di “concentrazione” della Divina Commedia, avevamo osservato la distribuzione generale per frequenze delle parole:
 
frequenza
parole
parole (%)
cumulata (%)
1
7309
56,96%
56,96%
2
1935
15,08%
72,04%
3
931
7,26%
79,30%
4
539
4,20%
83,50%
5
355
2,77%
86,27%
6
241
1,88%
88,15%
7
177
1,38%
89,53%
8
133
1,04%
90,56%
9
113
0,88%
91,44%
10
111
0,87%
92,31%
11
77
0,60%
92,91%
12
73
0,57%
93,48%
13
60
0,47%
93,94%
14
56
0,44%
94,38%
15 – 20
199
1,55%
95,93%
21 – 50
278
2,17%
98,10%
51 -100
117
0,91%
99,01%
101 – 200
64
0,50%
99,51%
201 – 500
32
0,25%
99,76%
501 – 1000
19
0,15%
99,91%
1001 – 2000
9
0,07%
99,98%
2001 – 4029
3
0,02%
100,00%
somma
12831
100%
 
tabella 1
 gra1grafico 1
 
La forte asimmetria di questo grafico aveva suggerito l’esistenza del fenomeno (“ci sono poche parole usate molto e molte parole usate poco”) che poi abbiamo approfindito e misurato.
Supponiamo ora di “tradurre” la tabella 1 in termini di occorrenze e non più di parole; il risultato è:
 
frequenza
occorrenze
occorrenze (%)
cumulata (%)
1
7309
7,19%
7,19%
2
3870
3,81%
10,99%
3
2793
2,75%
13,74%
4
2156
2,12%
15,86%
5
1775
1,75%
17,60%
6
1446
1,42%
19,03%
7
1239
1,22%
20,24%
8
1064
1,05%
21,29%
9
1017
1,00%
22,29%
10
1110
1,09%
23,38%
11
847
0,83%
24,21%
12
876
0,86%
25,08%
13
780
0,77%
25,84%
14
784
0,77%
26,61%
15 – 20
3405
3,35%
29,96%
21 – 50
8902
8,75%
38,72%
51 -100
8208
8,07%
46,79%
101 – 200
9307
9,15%
55,94%
201 – 500
9408
9,25%
65,19%
501 – 1000
12589
12,38%
77,57%
1001 – 2000
12730
12,52%
90,09%
2001 – 4029
10083
9,91%
100,00%
somma
101698
100%
 
tabella 2

  

Le parole con frequenza pari a 1 hanno un totale di occorrenze di 7309 (naturalmente, in questo caso parole e occorrenze coincidono, visto che stiamo parlando di parole che si presentano una volta sola); tuttavia, essendo le occorrenze molto più numerose della parole, questo dato in termini percentuali scende allo 7,19%. Le occorrenze corrispondenti alle parole presenti due volte sono 3870 (seconda riga), pari al 3,81% della occorrenze totali, e così via.
Osservando l’ultima colonna della tabella (“cumulata (%)”), ci accorgiamo che è solo a partire dalla classe di frequenza 101-200 che viene superata la metà delle occorrenze totali. Con la distribuzione delle parole, questo avveniva già con il primo valore (la cumulata delle parole con frequenza 1 era già il 56,96%).
La distribuzione della tabella 2 rappresentata graficamente è:
gra2grafico 2
 
Si vede subito come la distribuzione delle occorrenze (grafico 2) sia molto più uniforme rispetto a quella delle parole (grafico 1). Per facilitare il confronto, ho rappresentato le due distribuzioni in un’unico grafico:
 
gra3grafico 3
 
E’ chiaro che le occorrenze sono maggiormente distribuite lungo le classi di frequenza rispetto alle parole, che, invece, come abbiamo visto, si accumulano nelle frequenze minori.
Come si spiega questo fenomeno? Sappiamo già che all’aumentare delle frequenze, le parole diminuiscono; tuttavia, per costruzione, se aumentano le frequenze, quelle poche parole devono presentarsi maggiormente ripetute.
Ad esempio, consideriamo l’ultima classe di frequenza, quella da 2001 a 4029: sebbene le parole siano divina2solo 3 (“e”, “che” e “la”), si presentano ben 10.083 volte. Viceversa, la prima classe è formata da 7309 parole e 7309 occorrenze: come abbiamo già detto, essendo la classe della parole con frequenza 1, ogni parola si presenta una volta sola.
Da un punto di vista algebrico, possiamo notare che le occorrenze non sono altro che il prodotto tra frequenze e parole: ad esempio, se ci sono 111 parole che si presentano 10 volte, le occorrenze sono 10 × 111 = 1110. Dunque, siamo in presenza del prodotto tra due quantità inversamente legate. Se all’aumentare delle frequenze, il numero di parole diminuisce, allora possiamo aspettarci che il prodotto delle due, cioè le occorrenze, rimanga “più o meno” stabile.
A questo punto, non ho potuto resistere alla tentazione di immaginare un “testo ideale” in cui tale prodotto sia perfettamente costante… questo sarà l’argomento del prossimo post!
Saluti stocastici!

Per discutere di questo articolo, visita la sezione Formule e Parole del forum di XII.


Annunci
Questa voce è stata pubblicata in formule e parole. Contrassegna il permalink.

Rispondi

Effettua il login con uno di questi metodi per inviare il tuo commento:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...