Analisi statistica della Divina Commedia – parte 5

di Stefano Sampietro
 

La Divina Commedia è "concentrata"?

Dante1Nel precedente post, abbiamo notato che nella Divina Commedia:
 
"Ci sono poche parole usate molto e molte parole usate poco."
 
A mio avviso, questo fenomeno potrebbe essere interpretato come un problema di “concentrazione”.
In statistica, lo studio della concentrazione è l’analisi di come una data risorsa sia distribuita tra un certo numero di possessori. L’esempio tipico è quello del reddito: se pochi individui detengono la maggior parte del reddito complessivo, allora siamo in presenza di un’alta concentrazione; se invece il reddito è ripartito in maniera uniforme, allora la situazione è detta di bassa concentrazione.
Nel caso dell’analisi della Divina Commedia, l’idea che vorrei proporre è considerare le frequenze con cui le parole appaiono come la risorsa da ripartire, mentre le parole stesse rappresentano i possessori della risorsa. Una situazione in cui poche parole “detengono” una rilevante quota delle frequenze totali sarà quindi una situazione di alta concentrazione; viceversa, se le frequenze sono ben ripartite fra le parole, il grado di concentrazione è basso.
Come si misura il grado di concentrazione di una risorsa? Le tecniche più semplici prevedono la costruzione di una curva (detta “curva di Lorenz”) e il calcolo di un indice (“indice di Gini”).
La curva di Lorenz rappresenta tutte le parole in un grafico, le cui coordinate sono:
 
asse orizzontale: percentuale delle parole più “povere” (meno frequenti)
asse verticale: percentuale della ricchezza detenuta (frequenza)
 
Ogni punto del grafico quindi sarà intepretabile come la frequenza detenuta da una certa percentuale delle parole meno frequenti. Ad esempio, se i punti del grafico fossero:
 
% parole meno frequenti
% frequenza detenuta
25%
10%
50%
30%
75%
50%
 
Allora sapremmo che il 25% delle parole meno frequenti presenta il 10% delle frequente totali, che il 50% delle parole meno frequenti presenta il 30% delle frequenze totali e che il 75% delle parole meno frequenti presenta il 50% delle freqeunze totali.
La curva di Lorenz di questo piccolo esempio è illustrata nel seguente grafico (linea blu):
 conc1
grafico 1
 
La linea gialla rappresenta il caso di minima concentrazione (l’x% delle parole meno frequenti presenta esattamente l’x% delle frequenze totali: cioè ogni parola è presente in misura uguale alle altre), mentre la linea rossa quello di massima concentrazione (il 75% delle parole meno frequenti non hanno nessuna presenza nel testo e la frequenza è concentrata solo nelle parole rimanenti).
La posizione della curva all’interno dei due casi estremi fornisce un’idea circa il grado di concentrazione: più vicina è alla linea gialla (più lontana da quella rossa), minore è la concentrazione; più lontana è dalla linea gialla (più vicina a quella rossa), maggiore è la concentrazione.
Calcolando la curva di Lorenz per la Divina Commedia, si ottiene il seguente risultato:
 
 conc2
grafico 2
 
Nel grafico sono rappresentate anche le curve nei due casi estremi, quello di concentrazione minima (come se ognuna delle 12.831 parole fosse presente un numero uguale di volte, cioè 7,93) e quello di massima concentrazione (nell’ipotesi che una sola parola si presenti 12.831 volte e le rimanenti 12.830  parole abbiano frequenza nulla).
L’impressione è che la Divina Commedia sia presenti un grado di concentrazione delle proprie parole piuttosto elevato. Ad esempio, estraendo alcuni punti del grafico (in totale, la curva ha 12.831 punti), possiamo trovare una conferma a questa impressione:
  
% parole meno frequenti
% frequenza detenuta
10.0%
1.26%
30.0%
3.78%
50.0%
6.31%
60.0%
7.95%
70.0%
10.48%
80.0%
14.09%
90.0%
20.72%
95.0%
27.81%
99.0%
46.69%
99.9%
76.64%
 
tabella 1
 
Il 50% delle parole meno frequenti rappresenta soltanto il 6.31% della frequenza totale, il 90% delle parole meno frequenti rappresenta il 20.72% della frequenza totale; ancora il 99% delle parole meno frequenti raggiunge appena il 46.69% del totale e solo il 99.9% ha il 76.64%.
Lo studio della concentrazione delle parole della Divina Commedia non finisce qui: nel prossimo appuntamento, tramite il già citato indice di Gini, ne daremo una misurazione vera e propria.
Saluti stocastici!

 


Per discutere di questo articolo, visita la sezione Formule e Parole del forum di XII.


 

Annunci
Questa voce è stata pubblicata in formule e parole. Contrassegna il permalink.

Rispondi

Effettua il login con uno di questi metodi per inviare il tuo commento:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...