Capitolo 9 Modelli matamatici descrittivi: breve introduzione

9.1 Che c’entra la matematica?

L’eredità galileiana ci porta ad immaginare che il funzionamento della natura sia basato su una serie di relazioni causa-effetto, descrivibili utilizzando il linguaggio universale della matematica. La conoscenza esatta di queste relazioni, nella teoria, ci potrebbe consentire di prevedere l’andamento di ogni fenomeno naturale, almeno quelli osservabili con sufficiente precisione. In effetti era proprio questa l’ambizione più grande degli scienziati dell’inizio ’800: conoscendo lo stato iniziale di un sistema doveva essere possibile prevederne l’evoluzione futura. In realtà si è ben presto scoperto che si trattava di un’ambizione irrealistica, non tanto e non solo per la comparsa della meccanica quantistica un secolo dopo, ma anche per l’aumento di importanza degli studi in ambito psichiatrico e medico/biologico. Infatti questi studi riguardano organismi viventi altamente complessi, capaci di una grandissima variabilità di risposte individuali, che rendono altamente difficili, se non impossibili da trovare, le eventuali relazioni di causa-effetto, che pur dovrebbero esistere in pratica. Insomma, tra i biologi prevale la visione che la natura ha le sue relazioni causa-effetto, anche se i limiti della natura umana e le nostre difficoltà di misura ci impediscono di osservarle ed individuarle con precisione.

E’ quindi innegabile che la natura e, soprattutto, l’osservazione dei suoi fenomeni, siano caratterizzate da un’intrinseca componente stocastica, che nasconde le relazioni causa-effetto, distorcendone in modo piò o meno evidente i risultati. Il nostro compito è quello di riuscire a capire se quello che osserviamo, pur non essendo totalmente prevedibile in base alle relazioni causa-effetto note, è compatibile con esse o se invece debba essere considerato come una prova a loro confutazione.

In semplice linguaggio algebrico, potremmo immaginare che la natura opera secondo un modello deterministico causa-effetto di questo tipo:

\[Y_T = f(X, \theta)\]

dove \(Y_T\) è l’effetto dello stimolo \(X\), che segue la funzione \(f\), basati su una collezioni di parametri \(\theta\). Tuttavia, la componente stocastica distorce la nostra osservazione e non ci mostra \(Y_T\), ma ci mostra \(Y_o \neq Y_T\). Dobbiamo quindi scrivere:

\[Y_o = f(X,\theta) + \varepsilon\]

dove \(\varepsilon\) è la componente stocastica che distorce i risultati, per effetto del campionamento. Questa componente stocastica può essere descritta con una modello stocastico, assumendo che segua una certa distribuzione di probabilità, descritta da un parametro di posizione (es. media) e un parametro di forma (es. deviazione standard).

\[ \varepsilon \sim \Phi \left[ \lambda, \sigma \right] \]

9.2 Mettiamo alcuni paletti

Abbiamo visto che un modello ha due parti (una deterministica e una stocastica), caratterizzate dua varie componenti: \(Y\), \(X\), \(f\), \(\theta\), \(\Phi\), \(\lambda\) e \(\sigma\), che possono assumere le forme più disparate. Per cominciare, sarà bene restringere un po’ il nostro campo d’azione. Immaginiamo quindi che:

  1. \(Y\) è numerico e univariato
  2. \(X\) è numerico, categorico, univariato o multivariato
  3. \(f\) è lineare
  4. \(\Phi\) è normale (gaussiano)
  5. \(\lambda = \mu = 0\)
  6. \(\sigma\) è la deviazione standard

9.3 Metodo di lavoro

Seguiamo questo metodo di lavoro:

  1. definiamo X ed Y, le variabili oggetto di studio
  2. qual è il modello deterministico sul quale investighiamo? Scegliamo \(f\)
  3. organizziamo l’esperimento e raccogliamo i dati
  4. parametrizziamo il modello, cioè diamo un valore a \(\theta\)
  5. stimiamo \(\sigma\)
  6. facciamo inferenza

Ovviamente, l’esperimento non sarà reale, bensì simulato.