Analisi statistica della Divina Commedia – 2

di Stefano Sampietro
 

Dante1La Divina Commedia è vuota!

Qual è la parola più frequente della Divina Commedia? È la congiunzione “e”: si presenta infatti 4029 volte, cioè il 3,96% delle occorrenze totali (ricordo che per “occorrenza” si intende il numero di volte in cui una parola si presenta).
A seguire “che” (3696 volte, 3,63%), “la” (2358, 2,32%) e “a” (1969, 1,94%).
Nella tabella seguente, riporto le prime trenta parole più frequenti:

 

parola

occorrenza

occorrenza (%)

1

e

4029

3,96%

2

che

3696

3,63%

3

la

2358

2,32%

4

a

1969

1,94%

5

di

1878

1,85%

6

l’

1727

1,70%

7

non

1456

1,43%

8

per

1384

1,36%

9

io

1137

1,12%

10

in

1107

1,09%

11

si

1043

1,03%

12

ch’

1029

1,01%

13

l

947

0,93%

14

è

821

0,81%

15

le

802

0,79%

16

796

0,78%

17

li

781

0,77%

18

mi

760

0,75%

19

il

671

0,66%

20

più

661

0,65%

21

come

645

0,63%

22

con

645

0,63%

23

da

627

0,62%

24

de

599

0,59%

25

lo

593

0,58%

26

del

569

0,56%

27

i

569

0,56%

28

al

549

0,54%

29

d’

541

0,53%

30

ma

508

0,50%

tabella 1

Il primo risultato a cui si perviene, forse non troppo sorprendente, è dunque che le parole più frequenti sono articoli, congiunzioni, preposizioni, ecc. Sono le cosiddette “parole vuote” della linguistica.
Nel complesso, le parole vuote contano 58.513 occorrenze, cioè ben il 57,53% delle occorrenze totali:

vuote_occorrenze

grafico 1

 

Nonostante ciò, le parole vuote sono soltanto 582 e rappresentano appena il 4,54% delle parole:

vuote_parole

grafico 2

 
Dunque, le parole vuote sono una ristretta minoranza delle parole, eppure rappresentano la maggioranza delle occorrenze. Possiamo evidenziare meglio questa sorta di asimmetria mediante due tabelle, la prima contenente i conteggi, la seconda i valori percentuali:

 

vuote

non vuote

tot

parole

582

12.249

12.831

occorrenze

58.513

43.185

101.698

tabella 2

 

 

vuote

non vuote

tot

parole

4,54%

95,46%

100%

occorrenze

57,54%

42,46%

100%

tabella 3

 
In particolare, è dall’ultima tabella che appare immediatamente il suddetto fenomeno: passando dalla riga delle parole a quella delle occorrenze, si nota subito il cambiamento da minoranza a maggioranza delle parole vuote.
A conferma di tutto ciò, se per ognuna delle due categorie (parole vuote e non), dividiamo le occorrenze per il numero di parole, otteniamo le occorrenze medie:

 

vuote

non vuote

occorrenza media

100,54

3,53

tabella 4

Quindi se ogni parola non vuota si ripete mediamente 3,53 volte, una parola vuota lo fa circa 100 volte, con un rapporto di oltre 28 a 1.
Possiamo riassumere tutto quello che abbiamo evidenziato in questo post nei seguenti punti: 

  1. Le prime parole per maggior frequenza sono “parole vuote”.
  2. La parole vuote rappresentano più della metà (57,54%) delle occorrenze.
  3. La parole vuote sono una minima parte (4,54%) delle parole.
  4. Mediamente, la frequenza di ogni parola vuota è superiore di 28 volte di quella di una parola non vuota.

Nel prossimo appuntamento, ci occuperemo delle parole non vuote…
Saluti stocastici!


Per discutere di questo articolo, visita la sezione Formule e Parole del forum di XII.


Annunci
Questa voce è stata pubblicata in formule e parole. Contrassegna il permalink.

Rispondi

Effettua il login con uno di questi metodi per inviare il tuo commento:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...