Analisi statistica della Divina Commedia – parte 18

di Stefano Sampietro
 
Lettere iniziali e lettere finali: c’è qualche legame?
 
Dante1Immaginate di considerare l’insieme delle parole (types) della Divina Commedia e di suddividerle contemporaneamente per lettera iniziale e lettera finale. Il risultato potrebbe essere riassunto nella seguente tabella “a doppia entrata”:

 
 
 
finale
 
 
A
B
C
D
E
G
H
I
L
M
N
O
P
Q
R
S
T
U
V
X
Z
iniziale
A
341
1
 
1
215
 
 
229
10
8
46
310
 
 
71
6
2
1
 
 
 
B
104
 
 
 
71
 
 
65
5
2
10
94
 
 
10
2
 
1
 
 
 
C
323
 
1
2
279
 
1
248
16
4
64
325
 
1
75
4
3
2
 
 
 
D
217
1
 
4
185
 
1
178
8
3
33
218
 
 
44
4
 
1
1
 
 
E
59
1
 
1
55
 
 
42
4
1
6
61
 
 
12
4
2
2
 
 
 
F
153
 
1
 
150
 
 
151
9
4
31
151
 
 
33
3
1
1
 
 
 
G
121
 
 
1
92
 
 
94
9
1
24
127
 
 
23
1
1
2
 
 
 
H
1
 
 
 
1
 
 
1
 
1
1
2
 
 
 
 
1
 
 
 
 
I
160
1
 
 
86
 
 
82
9
3
12
120
 
 
20
2
2
2
1
1
 
J
 
 
 
 
 
 
 
1
 
 
1
 
 
 
 
 
 
 
 
 
 
L
102
 
1
 
81
 
1
82
6
2
11
110
 
 
20
3
1
1
 
 
 
M
168
 
 
 
143
 
2
150
11
6
24
175
 
 
39
5
2
 
1
 
 
N
80
 
 
 
80
 
 
59
9
 
14
87
 
 
15
 
2
1
 
 
 
O
57
 
 
2
53
 
1
42
4
1
10
61
 
 
13
 
 
 
1
 
 
P
263
 
3
 
264
 
1
223
11
11
60
289
1
 
65
7
3
1
1
 
 
Q
17
 
1
2
20
 
 
19
4
1
1
17
 
 
2
 
2
1
1
 
 
R
217
2
 
 
197
 
1
171
8
6
31
219
1
 
54
2
 
 
 
 
 
S
403
2
 
 
326
 
1
285
20
7
54
388
 
 
82
8
6
3
3
 
2
T
156
 
 
1
125
 
 
123
7
4
27
189
1
 
36
2
5
1
 
 
 
U
31
 
 
 
36
 
 
34
2
2
12
39
 
 
7
 
 
1
 
 
 
V
118
 
 
1
136
1
 
148
11
9
27
130
 
 
28
4
3
4
3
 
 
X
 
 
 
 
 
 
 
15
 
 
 
 
 
 
 
 
 
 
5
5
 
Z
8
 
 
 
3
 
 
1
 
 
 
5
 
 
 
 
 
 
 
 
 
 
tabella 1
 
Negli incroci della tabella, si leggono il numero delle parole che hanno una certa lettera iniziale e una certa lettera finale. Le righe sono relative alle lettere iniziali, mentre le colonne alle finali. Ad esempio, per sapere quante parole della Divina Commedia iniziano per D e finiscono per E, basta scegliere la riga relativa alla D (quarta riga), la colonna relativa alla E (quinta riga) e considerare il loro incrocio: ci sono 185 parole.
Gli incroci vuoti corrispondono a casi inesistenti (non esistono parole con quella lettera iniziale e quella finale).
Come si vede, le frequenze congiunte sono riportate con diversi colori: il rosso corrisponde alle frequenze maggiori di 200, il blu a quelle tra 100 e 199, il verde a quelle tra 50 e 99, il nero a quelle da 1 a 49. In aggiunta, ho evidenziato in giallo le più alte 6 frequenze.
Dalla tabella si evince dunque che i types più numerosi sono quelli che:
 
1)      cominciano per S e finiscono per A (403 parole, pari al 3.14%);
2)      cominciano per S e finiscono per O (388 parole, pari al 3.02%),
3)      cominciano per A e finiscono per A (341 parole, 2.66%);
4)      cominciano per S e finiscono per E (326 parole, 2.54%);
5)      cominciano per C e finiscono per A (323 parole, 2.52%);
6)      cominciano per A e finiscono per O (310 parole, 2.42%).
 
La rappresentazione grafica della distribuzione congiunta è affidata a un chiarissimo grafico “a superficie”:
mare
 grafico 1
 
Le zone verso il rosso simboleggiano gli incroci con il numero di parole più elevato, mentre il blu scuro quelli con meno parole.
La tabella seguente riporta le distribuzioni dei types delle lettere iniziali condizionatamente alle finali (il concetto di distribuzione condizionata è stato introdotto nel post precedente):
 cond1
 tabella 2
 
 
Ad esempio, se consideriamo la prima colonna, veniamo a sapere che tra le parole che finiscono per A, l’11,0% inizia per A, il 3,4% per B, il 10,4% iniziano per C, e così via. Considerando invece la sesta colonna, si deduce che tutte le parole che terminano per G, iniziano per V (la distribuzione condizionata in questo caso prevede un 100% sulla riga corrispondente all’iniziale V. In realtà, si tratta, in termini assoluti, di una sola parola: “vegg”; ad esempio, “per te si veggia come la vegg‘io”, Paradiso, canto 8, capoverso 88).
Le distribuzioni condizionate possono essere rappresentate graficamente da un chiarissimo diagramma a barre multiplo (ogni colore rappresenta una distribuzione):
city
grafico 2
 
Analogamente, le distribuzioni delle lettere finali dei types condizionate alle lettere iniziali sono:
 cond2
tabella 3
 
Data la loro complessità, la sola osservazione delle distribuzioni condizionate non ci permette, come nel più semplice caso della tipologia fonetica (lì eravamo in presenza di tabelle due per due!), di valutare il grado di dipendenza tra i due profili. A questo scopo, ho calcolato l’indice di Kramer:
 
Indice di Kramer = 0.013
 
Ricordo che l’indice assume valori tra 0 (indipendenza) e 1 (massima connessione): possiamo quindi concludere che tra i profili “lettera iniziale” e “lettera finale” non esiste un legame di connessione. In media, sapere che una parola della Divina Commedia cominci per una lettera piuttosto che un’altra, non fornisce indizi significativi su quale possa essere la lettera finale (e viceversa).
 
dante-ravenna_largeCol prossimo appuntamento, si concluderà l’analisi statistica della Divina Commedia: tireremo le somme e cerchermo di riassumere tutto quello che abbiamo scoperto!
Saluti stocastici!


Vuoi discutere di questo articolo? Vuoi porre domande all’autore? Visita la sezione Formule e Parole del forum di XII.

 
Annunci
Questa voce è stata pubblicata in formule e parole. Contrassegna il permalink.

Rispondi

Effettua il login con uno di questi metodi per inviare il tuo commento:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...