Analisi statistica della Divina Commedia – parte 6

di Stefano Sampietro
 
La Divina Commedia è molto “concentrata”!
 
Dante1Nel post precedente, abbiamo fatto un primo passo verso la misurazione del grado di “concentrazione” delle parole della Divina Commedia (avevamo infatto notato che nel poema di Dante, “ci sono poche parole usate molto e molte parole usate poco”). Più precisamente, abbiamo costruito la “curva di Lorenz”, osservando come questa fosse vicina alla curva di massima concentrazione.
Oggi forniremo una misurazione vera e propria grazie al calcolo del cosidetto “indice di Gini” (che indicheremo con G): questo indice assume valori compresi tra 0 (nel caso di minima concentrazione) e 1 (nel caso massima concentrazione).
Stando ai miei calcoli, l’indice di Gini per la concentrazione delle parole della Divina Commedia vale:
 
            G = 0,81
 
Dunque abbastanza prossimo a 1.
La conclusione a cui possiamo finalmente giungere è che il grado di concentrazione delle parole è piuttosto elevato: la Divina Commedia è dunque molto concentrata!
 
Prima di passare oltre, è importante sottolineare una caratteristica dell’analisi appena condotta. I risultati dante-ravenna_largedi uno studio della concentrazione basato sulla curva di Lorenz e sull’indice di Gini sono sempre da riferirsi all’insieme di parole del testo. Questo significa che se analizzassimo un testo composto da due sole parole ma presenti nella stessa misura (ad esempio 50.000 volte una e 50.000 volte l’altra), il risultato sarebbe di minima concentrazione (G=0). Sebbene due parole siano ben poca cosa rispetto alla ricchezza della lingua italiana, esse si contendono in parti uguali il testo in questione e l’analisi porta a stabilire l’assenza di concentrazione.
Il giudizio sul grado di concentrazione è chiaramente dipendente dall’insieme di parole di riferimento. Il precedente esempio di un testo formato da due sole parole presenti in ugual misura potrebbe infatti essere interpretato in due modi diametralmente opposti:
 
   1) Rispetto all’insieme delle parole italiane, è un testo estremamente concentrato.
   2) Rispetto alle parole del testo stesso, è un testo per nulla concentrato.
 
Ritengo importante evidenziare che i risultati di un’analisi della concentrazione così come l’abbiamo vista è sempre da riferirsi al secondo tipo di interpretazione.
commediaQuesta osservazione pone il problema della confrontabilità del grado di concentrazione tra due diversi testi. Confrontando la Divina Commedia (G = 0,81) con il testo di due sole parole dell’esempio (G = 0), giungeremmo alla conclusione che il poema dantesco sia molto più concentrato dell’altro. Questo è chiaramente fuorviante. La soluzione più evidente per consentire il confronto tra i risultati è quella di considerare un insieme di parole comune ai due testi, ad esempio l’insieme “unione” delle parole dei due testi (cioè tutte la parole che appaiono o nel primo o nel secondo o in entrambi). In questo caso, i due risultati sarebbero riferiti allo stesso insieme e sarebbero quindi confrontabili (associato al secondo testo avremmo certamente un indice di Gini maggiore di 0,81).
Da notare che estendendo questo ragionamento a più testi, potremmo idealmente giungere a una misura “universale” della concentrazione: considerando (teoricamente parlando) tutti i testi esistenti, formeremmo un insieme di riferimento costituito da tutte le parole di una lingua e i risultati avrebbero un’interpretazione assoluta!
Con il prossimo appuntamento, torneremo a studiare la distribuzione generale delle parole, ponendo l’accento alle occorrenze delle stesse.
Saluti stocastici!
 


Per discutere di questo articolo, visita la sezione Formule e Parole del forum di XII.


Annunci
Questa voce è stata pubblicata in formule e parole. Contrassegna il permalink.

Rispondi

Effettua il login con uno di questi metodi per inviare il tuo commento:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...