Analisi statistica della Divina Commedia – 1

di Stefano Sampietro
 
Dante1Dante Alighieri fu una persona modesta, tanto è vero che non si sarebbe mai sognato di chiamare “Divina” la sua Commedia (a farlo, ci ha pensato il Boccaccio qualche anno dopo). Di conseguenza, se avesse saputo quante analisi, studi, compendi, saggi, e chi ne ha più ne metta, avrebbe ricevuto nei secoli il suo poema, probabilmente sarebbe rimasto sorpreso. Di certo lo sarebbe rimasto venendo a sapere che, grazie a un’invenzione chiamata “computer”, qualcuno avrebbe preso il suo lavoro e lo avrebbe analizzato con gli strumenti di una scienza chiamata “statistica”.
Poco tempo fa, ero intento a scervellarmi su quale argomento proporre per la rubrica “Formule e Parole” e d’un tratto pervenni al seguente sillogismo: fra le cose che fa la statistica, c’è anche quella di rappresentare e riassumere i dati (per la precisione, questa parte della statistica è detta “statistica descrittiva”); un testo potrebbe essere visto come un insieme di dati; ergo, perché non descrivere un testo con gli strumenti della statistica?
Naturalmente non scoprii niente di nuovo. La linguistica computazionale è una scienza che esiste da mezzo secolo e si occupa dell’elaborazione del linguaggio umano con il supporto di strumenti informatici e di tecniche statistiche. Tuttavia l’idea mi piacque e mi misi a girare per la rete, trovando il sito di un software (IntraText) sviluppato per la consultazione e il conteggio delle frequenze e delle concordanze di un testo. Fra gli esempi che il sito forniva, c’era anche la Divina Commedia (per la verità, la Divina Commedia è qualcosa di più di un semplice esempio di analisi statistica di un testo, visto che uno dei lavori pionieristici di linguistica computazionale riguarda proprio il poema di Dante: Dante Alighieri, La Divina Commedia. Testo, concordanze, lessici, rimario, indici, IBM Italia, 1965).
 
Dunque, a cominciare dal post di oggi, la rubrica “Formule e Parole” si occuperà di “misurare” la Divina Commedia: analizzeremo le parole del poema sotto molti profili (come ad esempio la loro frequenza o la loro lunghezza) e cercheremo di evidenziare leggi e regolarità, il tutto per mezzo di tabelle, grafici, misure di sintesi e altre cose di questo genere.
Prima di iniziare, è bene però chiarire un paio di punti.
Primo. Quello che il sito di Intratext offre, lo trovate qui. Si tratta di qualche dato generale e di alcune semplici distribuzioni. Tutto il resto di quanto leggerete in questa rubrica è frutto di elaborazioni personali, qundi me ne prendo la piena responsabilità.
Secondo. Io non sono un linguista, ma uno statistico. Ciò ha avuto almeno due conseguenze: la prima è che non mi sono permesso di trarre conclusioni critiche di tipo letterario, la seconda è che probabilmente un linguista troverà imprecisa e rozza la terminologia che ho adottato: chiedo quindi in anticipo perdono!
 
 
 
  1. I numeri della Divina Commedia
Tutti sanno che la Divina Commedia è suddivisa in tre parti dette “cantiche” e che ogni cantica è composta divina1da 33 “canti” (l’Inferno ne ha uno in più, ma viene considerato una sorta di preludio). Ogni canto contiene un numero di versi endecasillabi da un minimo di 115 a un massimo di 160, per una media di 142 versi circa a canto e per un totale di 14.233 versi.
Nel complesso, il poema consiste di 101.698 parole, per una media di quasi 33.900 parole a cantica e di quasi 1.017 a canto. Il numero di caratteri, invece, è di 408.476 (spazi esclusi), cioè 136.159 caratteri in media a cantica e 4.085 circa a canto. Includendo anche gli spazi, ma qui non ho il dato esatto, i caratteri supererebbero certamente il mezzo milione.
Queste e altre informazioni sono riassunte nella tabella seguente:
 
gerarchia
cantiche
canti
versi
parole
caratteri
cantiche
3
33
4744,33
33899,33
136158,67
canti
100
142,33
1016,98
4084,76
versi
142.33
7,15
28,70
parole
101.698
4,02
caratteri
408.476
tabella 1.1
 
Nella parte sinistra ho riportato le quantità di tutti i “livelli” della Divina Commedia (cioè il numero di cantiche, di canti, di versi, ecc.). Nella parte destra invece sono indicati quanti oggetti di livello inferiore ha in media ogni livello: ad esempio, ogni canto ha in media 142,33 versi, 1016,98 parole e 4084,76 caratteri; ogni verso ha in media 7,15 parole e 28,7 caratteri, e così via. Ricordo che nei caratteri sono esclusi gli spazi.
Il livello sul quale baserò l’analisi è essenzialmente quello della parola. La parola dunque sarà la “variabile” che andremo ad analizzare.
 
 
 
  1. Un’importante distinzione
divina2In linguistica, si usa fare la distinzione tra “parole” e “occorrenze”, intendendo col secondo termine il numero di volte in cui una parola si presenta. Ad esempio, nella Divina Commedia la parola “ciel” si ripete 106 volte, quindi diremo che “ciel” ha 106 occorrenze.
Alla luce di questa terminologia, a cui ci adegueremo per tutto il resto dell’analisi, possiamo dire che la Divina Commedia ha:
 
Divina Commedia
parole
12.831
occorrenze
101.698
tabella 2.1
 
Detto in altri termini, se prendiamo tutte le 101.698 parole scritte che compongono il poema (le occorrenze) e le contiamo ognuna una volta sola, otteniamo un insieme di 12.831 elementi tutti diversi tra loro (le parole).
In statistica, quando si parla di “distribuzione di frequenza” di una variabile, si intende l’insieme dei possibili valori che la variabile assume e le frequenze con cui tali valori si presentano (la distribuzione di frequenza sarà l’oggetto centrale dell’analisi, sia come risultato in sé, sia come base per ulteriori elaborazioni). In questo caso, l’insieme dei possibili valori sono le parole mentre le frequenze sono le occorrenze. Dunque, “incrociando” la terminologia statistica con quella della linguistica, la distribuzione di frequenza sarà data dalle parole e dalle occorrenze associate.
Per oggi ci fermiamo qui: dal prossimo appuntamento, cominceremo a fare sul serio!
Saluti stocastici!
Annunci
Questa voce è stata pubblicata in formule e parole. Contrassegna il permalink.

Rispondi

Effettua il login con uno di questi metodi per inviare il tuo commento:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...