Capitolo 4 Modelli matematici a ‘due facce’

L’eredità galileiana ci porta ad immaginare che il funzionamento della natura sia basato su una serie di relazioni causa-effetto, descrivibili utilizzando il linguaggio universale della matematica. La conoscenza esatta di queste relazioni, nella teoria, ci potrebbe consentire di prevedere l’andamento di ogni fenomeno naturale, almeno quelli osservabili con sufficiente precisione.

In effetti era proprio questa l’ambizione più grande degli scienziati all’inizio dell’ottocento: conoscendo lo stato iniziale di un sistema, doveva essere possibile prevederne l’evoluzione futura. In realtà si è ben presto scoperto che si trattava di un’ambizione irrealistica, non tanto e non solo per la comparsa della meccanica quantistica un secolo dopo, ma anche per l’aumento di importanza degli studi in ambito psichiatrico e medico/biologico. Questi studi, infatti, venivano (e vengono) eseguiti su organismi viventi altamente complessi, che, se sottoposti allo stesso stimolo, danno risposte altamente variabili e, spesso, anche difficilmente misurabili e controllabili. Immaginiamo quanto possa essere difficile quantificare uno stato legato ad una patologia mentale e individuare un pattern di risposta ad un certo stimolo, ad esempio farmacologico.

Queste difficoltà fecero prevalere, tra i biologi, la convinzione che la natura funzionasse in base a meccanismi deterministici ben definiti, anche se difficilmente osservabili nella pratica sperimentale, a causa dei numerosi elementi di incertezza che si manifestavano nel corso delle osservazioni sperimentali. Insomma, la natura è perfetta, ma l’osservazione è fallace, perché influenzata dalla presenza di una forte componente stocastica e imprevedibile, che va sotto il nome generico di ’errore sperimentale’.

Dell’errore sperimentale abbiamo già parlato nei capitoli precedenti. Abbiamo anche visto che Ronald Fisher, nel suo famoso testo “Il disegno degli esperimenti” ha posto le basi per una corretta metodica sperimentale, volta a minimizzare l’impatto della componente stocastica e, soprattutto, ad impedire che essa possa confondersi con gli effetti degli stimoli sperimentali in studio. Minimizzare, tuttavia, non significa eliminare ed è evidente che, pur con tutti gli sforzi possibili, i risultati sperimentali saranno influenzati sempre e comunque da una certa quota di variabilità stocastica. Si vengono quindi a creare due contrapposte situazioni:

  1. la verità ‘vera’, immanente, di natura fondamentalmente deterministica e legata a relazioni causa-effetto ben definite.
  2. La ‘verità’ sperimentale, che si produce a partire dalla verità ‘vera’, per effetto dell’azione di elementi perturbativi casuali, che non ci permettono di osservare la verità ‘vera’.

Tenendo conto di questo, nella logica galileiana, possiamo provare ad utilizzare dei modelli matematici per descrivere le nostre osservazioni sperimentali e come esse si producono.

4.1 Verità ‘vera’ e modelli deterministici

In semplice linguaggio algebrico, potremmo immaginare che la natura opera secondo un modello deterministico causa-effetto di questo tipo:

\[ Y_E = f(X, \theta) \]

dove \(Y_E\) è l’effetto atteso dello stimolo \(X\), secondo la funzione \(f\), basata su una collezioni di parametri \(\theta\).

In questo modello vi sono una serie di componenti, che proviamo a guardare un po’ più nel dettaglio.

La risposta attesa (\(Y_E\)) è l’oggetto del nostro studio e può assumere le forme più disparate: spesso è numerica, ma a volte rappresenta una qualità. In questo libro consideremo solo la situazione in cui \(Y\) è rappresentato da una sola variabile (analisi univariate), ma esistono casi in cui viene osservata e analizzata la risposta di soggetti in relazione a molte variabili risposta (analisi multivariate).

Lo stimolo sperimentale (\(X\)) è costituito da una o più variabili continue, discrete o categoriche, che rappresenta/ano il/i trattamento/i sperimentale/i (fattore/i sperimentale/i). Insieme ad \(Y\) è l’elemento noto di un esperimento, in quanto viene definito a priori con il disegno sperimentale.

La ‘funzione’ di risposta (\(f\)) è un’equazione, altrimenti detta ‘modello matematico’. L’equazione può essere lineare o non-lineare ed è selezionata o in base a considerazioni di carattere biologico, o con un approccio puramente empirico, nel quale osservo la risposta e scelgo un’equazione la cui forma si adatta bene ad essa.

I parametri di una funzione (\(\theta\)) sono un insieme di valori numerici che definiscono il modello. Nel prossimo paragrafo vedremo qualche esempio.

4.2 Qualche esempio di modello deterministico

Il modello più semplice è il cosiddetto modello della media:

\[ Y = \mu \]

Con questo modello si vuole indicare che un’osservazione dovrebbe conformarsi ad un certo valore atteso, in assenza di ogni stimolo sperimentale noto. Ha un solo parametro, cioè \(\mu\).

Un modello appena più complesso è il cosidetto modello ANOVA:

\[ Y = \left\{ {\begin{array}{ll} \mu_1 & se \quad X = A \\ \mu_2 & se \quad X = B \end{array}} \right. \]

In questo caso la risposta attesa dipende dallo stimolo sperimentale X, che è composto di due trattamenti: se il soggetto è trattato con A, fornisce la risposta \(\mu_1\), se è trattato con B fornisce \(\mu_2\). Il trattamento sperimentale è costituito da una variabile categorica con due modalità, ma l’estensione a più modalità è immediata. In questo caso, abbiamo due parametri (\(\mu_1\) e \(\mu_2\)).

Un ulteriore esempio di modello che vedremo in questo libro è la regressione lineare semplice, dove la relazione di risposta è descrivibile con una retta, la cui equazione generale è:

\[ Y = a + b \times X \]

In questo caso sia la \(Y\) che la \(X\) sono variabili quantitative e vi sono due parametri \(a\) e \(b\).

I modelli finora descritti sono lineari, ma esistono numerosi funzioni che descrivono relazioni curvilinee. Come esempio possiamo citare la parabola:

\[ Y = a + b \times X + c \times X^2\] caratterizzata da tre parametri, oppure la funzione esponenziale:

\[ Y = a \, e^{b X} \]

caratterizzata da due parametri (\(a\) e \(b\)), mentre \(e\) è l’operatore di Nepero. Delle funzioni curvilinea parleremo al termine di questo libro.

4.3 Genesi deterministica delle osservazioni sperimentali

Le espressioni date più sopra sono tutte nella loro forma generale e non sono utilizzabili se ai parametri non viene sostituito un valore numerico. E’proprio questo il nostro punto di partenza: un fenomeno scientifico può essere determinato (meglio, descritto) attraverso un’equazione e dei parametri.

Ad esempio, potremmo immaginare che la risposta produttiva (Y) di una coltura (es. frumento) dipenda dalla dose della concimazione azotata (X), seguendo un andamento lineare, con \(a = 20\) e \(b = 0.3\). Rifacendosi alla notazione esposta sopra diremmo che \(\theta\) è l’insieme dei valori 20 e 0.3.

Se questo assunto è vero, un eventuale esperimento di concimazione azotata, in assenza di qualunque fattore perturbativo, dovrebbe dare risultati assolutamento prevedili. Ad esempio, se concimiamo il frumento con 0, 30, 60, 90, 120 e 150 kg/ha di azoto, dovremmo osservare le risposte riportate qui di seguito.

X <- c(0, 30, 60, 90, 120, 150)
Ye <- 20 + 0.3 * X
Ye
## [1] 20 29 38 47 56 65

Qualcuno potrebbe obiettare che si tratta di una situazione irrealistica, perché la relazione tra concimazione azotata e produzione del frumento non è lineare. Non importa, in questo momento vogliamo semplicemente illustrare qual è la genesi delle osservazioni sperimentali. Fondamentalmente postuliamo l’esistenza di un modello matematico deterministico (causa-effetto) che, in assenza di errore sperimentale, è in grado di descrivere il comportamento della natura in una data situazione pedo-climatica.

4.4 Errore sperimentale e modelli stocastici

Tuttavia esiste un problema: l’errore sperimentale, puramente stocastico, confonde le nostre osservazioni e le rende diverse da quanto previsto dal modello deterministico. Come fare per incorporare questi effetti stocastici in un modello matematico? Ne parliamo immediatamente attraverso un esempio, semplice, ma concreto.

Immaginiamo un campo di frumento, di notevoli dimensioni. Un campo nella valle del Tevere, con milioni di piante geneticamente simili, in un ambiente abbastanza uniforme da un punto di vista del microclima. Immaginiamo di voler determinare l’altezza delle piante di questo campo. Immaginiamo di non avere limitazioni e di poter determinare l’altezza di tutte le piante dell’appezzamento. La nostra popolazione di soggetti diviene una popolazione di misure. Come è fatta questa popolazione? Quali sono le sue caratteristiche? Basiamoci sulla nostra esperienza professionale, cercando di utilizzare argomenti che possano essere condivisibili per l’intera comunità scientifica.

In primo luogo, possiamo dire che l’altezza delle piante dovrebbe essere quella dettata dal loro patrimonio genetico. Poniamo che questa altezza sia \(\mu = 100\); di conseguenza, il valore atteso di altezza è:

\[Y_E = \mu = 100\]

In realtà, questo valore \(\mu\) non è osservabile, a causa dell’errore sperimentale. Al suo posto osserveremo \(Y_O \neq Y_E\), con:

\[ Y_O = \mu + \varepsilon \]

dove \(\varepsilon\) è appunto una misura della componente stocastica individuale che distorce i risultati. Che valori potrebbe assumere \(\varepsilon\)? I valori individuali non possiamo conoscerli, ma possiamo fare alcune considerazioni probabilistiche: se il valore atteso è 100, trovare altezze comprese tra 99 e 101 cm dovrebbe essere molto più frequente che non trovare altezze pari a 40 cm o 180 cm. Quindi trovare valori di \(\varepsilon\) vicini allo 0 dovrebbe essere molto più frequente che non trovarli lontani.

In generale, esiste una funzione che ci permetta di assegnare valori di probabilità alle diverse altezze che possiamo trovare in un campo di frumento? La risposta è si: funzioni di questo tipo si chiamano funzioni di probabilità.

4.4.1 Funzioni di probabilità

Se avessimo rilevato una qualità del soggetto, come il sesso (M/F), la mortalità (vivo/morto), la germinabilità (germinato/non germinato), avremmo una variabile categorica nominale e potremmo calcolare le probabilità definita come rapporto tra il numero degli eventi favorevoli e il numero totale di eventi possibili (probabilità ‘frequentista’).

Ad esempio, immaginiamo di aver rilevato il numero di germogli di accestimento di 20 piante di frumento e di averne trovate 4 con 0 germigli, 6 con 1 germoglio, 8 con due germogli e 2 con tre germogli. La funzione che assegna la probabilità P ad ognuno dei quattro eventi X possibili (funzione di probabilità) è:

\[ P(X) = \left\{ \begin{array}{l} 4/20 = 0.2 \,\,\,\,\,\,se\,\,\,\,\,\,X = 0 \\ 6/20 = 0.3 \,\,\,\,\,\,se\,\,\,\,\,\,X = 1 \\ 8/20 = 0.4\,\,\,\,\,\,se\,\,\,\,\,\, X = 2 \\ 2/20 = 0.1 \,\,\,\,\,\,se\,\,\,\,\,\,X = 3 \\ \end{array} \right. \]

Viene ad essere definita una distribuzione di probabilità, che ha due caratteristiche importanti:

  1. P(X) è sempre non-negativo (ovvio! le probabilità sono solo positive o uguali a 0);
  2. la somma delle probabilità di tutti gli eventi è sempre pari ad 1 (ovvio anche questo: la probabilità che capiti uno qualunque degli eventi è sempre 1).

Se gli eventi possibili sono ordinabili (come nel caso precedente), oltre alla funzione di probabilità, si può definire anche la funzione di probabilità cumulata, detta anche funzione di ripartizione con la quale si assegna ad ogni evento la sua probabilità più quella di tutti gli eventi ‘inferiori’. Nell’esempio precedente:

\[ P(X) = \left\{ \begin{array}{l} 0.2\,\,\,\,\,\,se\,\,\,\,\,\,X \leq 0 \\ 0.5\,\,\,\,\,\,se\,\,\,\,\,\,X \leq 1 \\ 0.9\,\,\,\,\,\,se\,\,\,\,\,\,X \leq 2 \\ 1.0\,\,\,\,\,\,se\,\,\,\,\,\,X \leq 3 \\ \end{array} \right. \]

Per una distribuzione di probabilità come questa (classi numeriche ordinate), considerando il valore centrale di ogni classe, possiamo calcolare la media (valore atteso) come:

\[ \mu = E(X) = \sum{\left[ x_i \cdot P(X = x_i ) \right]} \]

e la varianza come:

\[\sigma ^2 = Var(X) = E\left[ {X - E(X)} \right]^2 = \sum{ \left[ {\left( {x_i - \mu } \right)^2 \cdot P(X = x_i )} \right]}\]

In questo caso specifico, la media è pari a:

mu <- 0 * 0.2 + 1 * 0.3 + 2 * 0.4 + 3 * 0.1
mu
## [1] 1.4

e la varianza è pari a:

(0 - mu)^2 * 0.2 + (1 - mu)^2 * 0.3 + (2 - mu)^2 * 0.3 +
  (3 - mu)^2 * 0.2
## [1] 1.06

Mediamente, le nostre piante hanno 1.4 germogli con una varianza pari a 1.06.

4.4.2 Funzioni di densità

Quanto abbiamo detto finora non si applica al nostro caso, in quanto abbiamo rilevato una variabile continua (altezza) e non abbiamo intenzione di discretizzarla in classi. In questo caso le altezze che possiamo riscontrare sono pressoché infinite e non ha molto senso chiedersi, ad esempio, qual è la probabilità di trovare un individuo alto esattamente 96 cm. Capiamo da soli che questa probabilità è un infinitesimo.

Al contrario, come abbiamo visto più sopra, possiamo calcolare la probabilità di ottenere un valore compreso in un intervallo, per esempio da 80 a 90 cm. Tuttavia, abbiamo detto di non voler discretizzare, anche perché la probabilità dipenderebbe dall’ampiezza dell’intervallo prescelto, il che introdurrebbe un elemento arbitrario. Possiamo tuttavia pensare di calcolare la densità di probabilità, vale a dire il rapporto tra la probabilità di un intervallo e la sua ampiezza (cioè la probabilità per unità di ampiezza dell’intervallo; per questo si parla di densità). E’ evidente che se un intervallo diventa infinitamente piccolo anche la probabilità tende a zero con la stessa ‘velocità’, in modo che la densità di probabilità tende ad un numero finito (ricordate il limite del rapporto di polinomi?).

Insomma, con i fenomeni continui non possiamo lavorare con la probabilità dei singoli eventi, ma possiamo lavorare con la densità di probabilità e definire quindi apposite funzioni di densità. Analogamente alle funzioni di probabilità, le funzioni di densità debbono avere due caratteristiche:

  1. assumere solo valori non-negativi;
  2. la somma delle probabilità di tutti gli eventi possibili, calcolabile come integrale della funzione di densità, deve essere unitaria (anche in questo caso la densità di probabilità di tutti gli eventi possibili è pari ad 1).

Data una funzione di densità, possiamo costruire la corrispondente funzione di probabilità cumulata, facendo l’integrale per ogni evento pari o inferiore a quello dato. Più in generale, per variabili continue sia la funzione di ripartizione (probabilità cumulata), che la media o la devianza sono definite ricorrendo agli integrali:

\[ \begin{array}{l} P(X) = f(x) \\ P(X \le x) = \int\limits_{ - \infty }^x {f(x)} dx \\ \mu = E(X) = \int\limits_{ - \infty }^{ + \infty } {xf(x)} dx \\ \sigma ^2 = Var(X) = \int\limits_{ - \infty }^{ + \infty } {\left( {x - \mu } \right)^2 f(x)} dx \\ \end{array} \]

In pratica, vedremo che, a seconda della funzione di densità, è possibile adottare formule semplificate per le diverse statistiche descrittive.

4.5 La distribuzione normale (curva di Gauss)

Torniamo ancora alla nostra popolazione di misure, relative alle altezze del frumento nella media Valle del Tevere. E’ ragionevole pensare che, effettuando le misurazioni con uno strumento sufficientemente preciso e in presenza delle sole variazioni casuali (visto che abbiamo idealmente rimosso ogni differenza sistematica spiegabile), i risultati tendono a differire tra di loro, muovendosi intorno ad un valore medio, rispetto al quale le misure superiori ed inferiori sono equiprobabili e tendono ad essere più rare, via via che ci si allontana dal valore medio. Questo ragionamento ci porta verso una densità di probabilità (parliamo di variabili continue) a forma di campana, che potrebbe essere descritta con una funzione continua detta curva di Gauss.

La curva è descritta dalla seguente funzione di densità:

\[P(x) = \frac{1}{{\sigma \sqrt {2\pi } }}\exp \left[{\frac{\left( {x - \mu } \right)^2 }{2\sigma ^2 }} \right]\]

ove \(P(x)\) è la densità di probabilità di una certa misura \(x\), mentre \(\mu\) e \(\sigma\) sono rispettivamente la media e la deviazione standard della popolazione (per la dimostrazione si rimanda a testi specializzati). Le variabili casuali che possono essere descritte con la curva di Gauss, prendono il nome di variabili normali o normalmente distribuite.

Studiare le principali proprietà matematiche della curva di Gauss è estremamente utile. Ad esempio, senza voler entrare troppo nel dettaglio, guardando la curva di Gauss possiamo notare che:

  1. la forma della curva dipende da solo da \(\mu\) e \(\sigma\) (figura @ref{fig:figName51}). Ciò significa che, se prendiamo un gruppo di individui e partiamo dal presupposto (assunzione parametrica) che in relazione ad un determinato carattere quantitativo (es. produzione) la distribuzione di frequenza è normale (e quindi può essere descritta con una curva di Gauss), allora basta conoscere la media e la deviazione standard degli individui e immediatamente conosciamo l’intera distribuzione di frequenza (cioè l’intera popolazione di misure);
  2. la curva ha due asintoti e tende a 0 quando x tende a infinito. Questo ci dice che se assumiamo che un fenomeno è descrivibile con una curva di Gauss, allora assumiamo che tutte le misure sono possibili, anche se la loro frequenza decresce man mano che ci si allontana dalla media;
  3. la probabilità che la x assuma valori compresi in un certo intervallo è data dall’integrale della curva di Gauss in quell’intervallo. Ad esempio, la figura @ref{fig:figName52} mostra l’80° percentile, cioè la misura più alta dell’80% delle misure possibili;
  4. Se la curva di Gauss è stata costruita utilizzando le frequenze relative, l’integrale della funzione è uguale ad 1. Infatti la somma delle frequenze relative di tutte le varianti possibili non può che essere uguale ad 1;
  5. la curva è simmetrica. Questo indica che la frequenza dei valori superiori alla media è esattamente uguale alla frequenza dei valori inferiori alla media.
  6. dato \(\sigma\), possiamo dire che la frequenza dei valori superiori a \(\mu + \sigma\) è pari al 15.87% ed è uguale alla frequenza dei valori inferiori a \(\mu - \sigma\).
Distribuzioni normali con diversa media e deviazione standard (rispettivamente 5 e 1 a sinistra, 6 e 3 a destra

Figure 4.1: Distribuzioni normali con diversa media e deviazione standard (rispettivamente 5 e 1 a sinistra, 6 e 3 a destra

Integrale della curva di densità normale (80° percentile; sinistra) e curva di probabilità cumulata (destra)

Figure 4.2: Integrale della curva di densità normale (80° percentile; sinistra) e curva di probabilità cumulata (destra)

4.6 Modelli ‘a due facce’

A questo punto, sempre in relazione all’altezza del nostro frumento, possiamo scrivere che l’altezza della pianta \(i\) è:

\[Y_i = \mu + \varepsilon\] dove:

\[ \varepsilon \sim N(0, \sigma) \]

cioè la componente stocastica \(\varepsilon\) è normalmente distribuita con media 0 e deviazione standard \(\sigma\). E’abbastanza evidente che è possibile scrivere:

\[Y_i \sim N(\mu, \varepsilon)\]

cioè che l’altezza del frumento è normalmente distribuita con media \(\mu\) e deviazione standard \(\sigma\). Dato che si tratta di una semplice traslazione di una distribuzione normale lungo l’asse delle ascisse (come in figura #ref{figName51}), le due espressioni sono totalmente equivalenti.

Ora si può dire che conosciamo perfettamente la popolazione di partenza se conosciamo \(\mu\) e \(\sigma\), cioè la parte (‘faccia’) deterministica e la parte (‘faccia’) stocastica del modello. Se quindi immaginiamo che \(\mu = 100\) (come abbiamo detto in precedenza) e \(\sigma = 8\), possiamo risolvere alcuni semplici esercizi, utilizzando le funzioni di calcolo di probabilità di R.

4.6.1 Esercizio 1

Calcolare la densità di un’altezza pari a 120 cm.

dnorm(120, mean = 100, sd = 8)
## [1] 0.002191038

4.6.2 Esercizio 2

Qual è la probabilità di ottenere piante con altezza inferiore a 80 cm?

pnorm(80, mean = 100, sd = 8)
## [1] 0.006209665

4.6.3 Esercizio 3

Qual è la probabilità di ottenere piante con altezza superiore a 110 cm?

pnorm(110, mean = 100, sd = 8, lower.tail = F)
## [1] 0.1056498

Si utilizza l’argomento lower.tail=FALSE, in quanto stiamo cercando la probabilità di un’a concentrazione pari o superiore ad 1.1, e non pari od inferiore.‘altezza pari o superiore a 110 cm (upper-tail) e non quella pari o inferiore a 110 cm (lower-tail), che sarebbe fornita di default. E’ totalmente equivalente utilizzare la funzione sottostante.

1 - pnorm(110, mean = 100, sd = 8)
## [1] 0.1056498

4.6.4 Esercizio 4

Qual è la probabilità di ottenere piante con altezza compresa tra 80 e 110 cm?

pnorm(110, mean = 100, sd = 8) - pnorm(80, mean = 100, sd = 8)
## [1] 0.8881406

4.6.5 Esercizio 5

Qual è quella misura che è superiore al 90% di tutte le piante del campo (90° percentile?

qnorm(0.9, 100, 8)
## [1] 110.2524

4.6.6 Esercizio 6

Qual è quella misura che è inferiore al 20% di tutte le piante del campo (80° percentile?

qnorm(0.8, 100, 8)
## [1] 106.733
qnorm(0.2, 100, 8, lower.tail=F)
## [1] 106.733

4.6.7 Esercizio 7

Quali sono quei due valori, simmetrici rispetto alla media e tali da formare un intervallo all’interno del quale cadono il 95% delle piante?

qnorm(0.025, 100, 8)
## [1] 84.32029
qnorm(0.975, 100, 8)
## [1] 115.6797

4.7 Altri modelli stocastici di interesse per lo sperimentatore

Oltre alla distribuzione gaussiana, che è largamente la più importante, esistono molti altri modelli stocastici, sia per eventi continui che discreti. Menzioniamo solamente la distribuzione \(t\) di Student, la distribuzione binomiale, la distribuzione \(\chi^2\) e la distribuzione \(F\) di Fisher. Chi volesse approfondire queste distribuzioni trova informazioni in seguito. Per gli altri vogliamo solo far notare che le funzioni di R per il calcolo di probabilità hanno sempre la stessa sintassi, che, dato il nome della distribuzione (es. ‘norm’ per la distribuzione normale), assegna il prefisso ‘d’ per la funzione di probabilità/densità, ‘p’ per la funzione di probabilità cumulata, ‘q’ per la funzione quantile. Alcuni esempi sono dati nel quadro sottostante

# BINOMIALE
dbinom()
pbinom()
qbinom()

# t di Student
dt()
pt()
qt

4.8 E allora?

Cerchiamo di ricapitolare. Le popolazioni di soggetti sperimentali e delle loro misure sono un oggetto largamente ignoto e inconoscibile. Infatti, le caratteristiche dei soggetti della popolazione sono, in parte, determinate in base a relazioni causa-effetto, ma, in altra parte, esse sono puramente stocastiche. Tuttavia è ragionevole supporre che esse seguano una qualche funzione di probabilità/densità (assunzione parametrica). Se questo è vero, allora possiamo utilizzare queste funzioni e i loro integrali per calcolare la probabilità di ottenere una certa misura o un certo insieme di misure.

4.9 Le simulazioni Monte Carlo

Se quanto abbiamo detto è vero, ogni esperimento scientifico non è altro che un’operazione di campionamento da una certa distribuzione di probabilità. Questo campionamento può essere simulato impiegando un generatore di numeri casuali. Immaginiamo di avere disegnato un esperimento con otto parcelle (repliche) per determinare la produzione del mais in un certo appezzamento e immaginiamo che queste parcelle costituiscano un campione rappresentativo della popolazione di parcelle di quell’appezzamento. Se la popolazione è distribuita normalmente, con media pari a 12 t/ha e deviazione standard pari ad 1.2 t/ha, allora possiamo simulare i risultati del nostro esperimento come segue:

set.seed(1234)
Y <- rnorm(8, 15, 1.2)
Y
## [1] 13.55152 15.33292 16.30133 12.18516 15.51495 15.60727 14.31031 14.34404
mean(Y)
## [1] 14.64344
sd(Y)
## [1] 1.328183

La generazione di numeri casuali con il computer viene fatta attraverso algoritmi che, a partire da un seed iniziale, forniscono sequenze che obbediscono a certe proprietà fondamentali (numeri pseudo-casuali). Il comando ‘set.seed(1234)’ ci permette di partire dallo stesso valore e quindi di ottenere lo stesso campione. Un’altra cosa da notare è che il nome della funzione che genara numeri casuali è formato con il nome della distribuzione (‘norm’) più il prefisso ‘r’. Questo è vero per tutte le altre distribuzioni in R (‘rbinom’, ‘rt’ e così via)

I valori campionati non riflettono le caratteristiche della popolazione, nel senso che la media e la deviazione standard del campione differiscono da quelle della popolazione. E’ esattamente ciò che capita durante un esperimento!

Faremo largo uso delle simulazioni di Monte Carlo nei capitoli seguenti.

4.10 Analisi dei dati e ‘model fitting’

Secondo il principio illustrato in questo capitolo, un ricercatore arriverebbe a conoscere perfettamente la realtà se riuscisse ad individuare l’equazione e i parametri che governano il fenomeno in studio. Di conseguenza, l’ipotesi scientifica che sta alla base di un esperimento può essere posta sotto forma di modello matematico. Ad esempio, potremmo ipotizzare che la degradazione di un erbicida nel terreno segua una legge di decadimento esponenziale, rappresentabile, in genere, con l’equazione:

\[ C= a \, e^{-k T} + \varepsilon\]

dove \(C\) è la concentrazione dell’erbicida in un dato momento \(T\) ed \(a\) e \(k\) sono i parametri. Per quanto riguarda l’elemento stocastico, possiamo assumere che:

\[ \varepsilon \sim N(0, \sigma)\]

In modo equivalente, potremmo scrivere:

\[ C \sim N(a \, e^{-k T}, \sigma)\]

Questo modello è assolutamente generale; se vogliamo specificarlo per una situazione specifica, ad esempio per la degradazione di imazethapyr a 20°C, possiamo realizzare un esperimento nel quale contaminamo un terreno con questo erbicida, lo mettiamo a 20°C e, in tempi diversi, preleviamo aliquote di terreno da sottoporre a determinazione gascromatografica. L’analisi dei dati raccolti consisterànell’individuare \(a\), \(k\) e \(\sigma\), con una tecnica definita di model fitting.

Le diverse tecniche di analisi dei dati che descriveremo nei capitoli successivi sono accomunate dall’essere appunto tecniche di model fitting. Vedremo anche come queste tecniche possono essere utilizzate per verificare che le osservazioni sperimentali si conformino ad un dato modello (goodness of fit) oppure per confrontare due ipotesi alternative poste sotto forma di modelli diversi (model comparison).