Analisi statistica della Divina Commedia – parte 9

di Stefano Sampietro
 
L’analisi per lunghezza delle parole
 
Con il post di oggi, analizzeremo le parole della Divina Commedia rispetto alla loro lunghezza, cioè rispetto al numero di caratteri che le compongono.
Ovviamente le parole più brevi sono formate da un solo carattere:
 
parola
occorrenza
a
1969
d
1
e
4029
è
821
i
569
l
947
n
93
o
313
p
2
u
16
x
3
tot
8763

tabella 1

 
Dante1Oltre alle vocali, le parole di un solo carattere sono la coniugazione in terza persona del verbo essere “è” e alcune consonanti isolate.
Sebbene siano soltanto 11 (cioè meno dello 0,1% delle parole), le parole più brevi corrispondono a 8763 occorrenze (cioè l’8,62% delle occorrenze totali).
Si noti che, per convenzione, le parole formate da una lettera seguita da apostrofo (come “l’” di “l’albero” o “c’” di “c’è”) sono considerate parole di due caratteri, quindi non rientrano nel precedente caso.
Le parole più lunghe, invece, hanno 15 caratteri e, in tutto il poema, sono 5:
 
parola
contesto
locazione
cinquecentesimo
quando al cinquecentesimo anno appressa;
In, 24, 108
differentemente
e differentemente han dolce vita
Pa, 4, 35
disagguaglianza
disagguaglianza, e però non ringrazio
Pa, 15, 83
perpetualemente
perpetualemente ‘Osanna’ sberna
Pa, 28, 118
superillustrans
superillustrans claritate tua
Pa, 7, 2
tabella 2
 
Ognuna di esse si presenta una sola volta (in linguistica, le parole che occorrono una volta soltanto sono dette “hapax”, dal greco hàpax legòmenon, cioè “detto una volta sola”): nella precedente tabella, sotto la voce locazione, sono indicati la cantica, il canto e il capoverso.
Nell’ambito della linguistica computazionale, o più precisamente in quello della linguistica statistica, divina2esiste una legge nota come legge di Zipf-Guiraud che afferma come tra la lunghezza delle parole e la loro frequenza sussista un rapporto inverso. In altri termini, all’aumentare del numero dei caratteri che compongono le parole, le frequenze con cui queste si presentano tendono a diminuire. In effetti, i due casi appena visti delle parole più brevi e più lunghe della Divina Commedia sembrano accordarsi con questa legge (su questo punto, tornerò nel prossimo post).
La tabella seguente suddivide per lunghezza (da 1 a 15 caratteri) tutte le parole della Divina Commedia:
 
lunghezza
parole
parole (%)
cumulate
1
11
0.09%
0.09%
2
98
0.76%
0.85%
3
269
2.10%
2.95%
4
968
7.54%
10.49%
5
2182
17.01%
27.50%
6
2319
18.07%
45.57%
7
2576
20.08%
65.65%
8
2009
15.66%
81.30%
9
1144
8.92%
90.22%
10
715
5.57%
95.79%
11
327
2.55%
98.34%
12
147
1.15%
99.49%
13
52
0.41%
99.89%
14
9
0.07%
99.96%
15
5
0.04%
100.00%
tot
12831
100%
 
 tabella 3
 
La lunghezza a cui corrisponde il maggior numero di parole, che in statistica chiameremmo “moda”, è 7 (2576 parole, pari al 20,08%). Dunque circa una parola su cinque della Divina Commedia è composta da sette lettere. Le parole composte da un numero di lettere da 5 a 8 (inclusi), rappresentano già il 70,81% di tutte le parole.
La lunghezza media di una parola invece è 6,819 caratteri.
I valori delle lunghezze centrali sono quelli con le maggiori frequenze e la distribuzione assume una forma più o meno simmetrica e centrata attorno alla media:lung
Se la media e la moda sono delle cosiddette “misure di posizione”, cioè danno un’indicazione circa i valori centrali della distribuzione, lo “scarto quadratico medio” (o “deviazione standard”) è una “misura di dispersione”, cioè valuta quanto vicino o lontano i dati siano distribuiti attorno alla propria media. Per la lunghezza delle parole della Divina Commedia, lo scarto quadratico medio è pari a 1,99: questo significa che, in media, le differenze delle parole con il loro valore medio è di quasi due caratteri.
Con il prossimo appuntamento, rimarremo ancora sullo studio delle parole rispetto alla loro lunghezza, ma arricchiremo l’analisi con la distribuzione delle occorrenze.
Saluti stocastici!


Per discutere di questo articolo, visita la sezione Formule e Parole del forum di XII.

Annunci
Questa voce è stata pubblicata in formule e parole. Contrassegna il permalink.

Rispondi

Effettua il login con uno di questi metodi per inviare il tuo commento:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...