In un post precedente abbiamo introdotto un metodo di indagine statistica finalizzata alla previsione, parlando in particolare di interpolazione ed estrapolazione. Vediamo oggi come gestire le informazioni e i risultati di queste tecniche basandoci su alcuni dati dell’indice NAO, mostrando particolare attenzione al fatto che il metodo possa rivelarsi utile o meno.

Senza dilungarci troppo su questo indice climatico, diciamo solamente che prendiamo tutte le medie mensili dal 1951 al 2003 in modo tale da avere 636 dati. Non moltissimi ma abbastanza per i nostri scopi.
Prima di operare bisogna aprire una piccola discussione. Mettersi a manovrare i dati è molto rischioso, soprattutto se non si hanno bene in mente le idee sul da farsi.
Quando si ha a che fare con un modello di previsione climatica bisogna assicurarsi che lo stesso sia costruito in maniera tale da poter ricostruire anche il passato; questo è l’unico modo per poter testare la bontà delle previsioni sul futuro prima che questo si realizzi. Di conseguenza utilizzeremo una parte dei dati come training set (dati di addestramento) e una parte per il validation set (dati di validazione). Anche se non stiamo costruendo affatto un modello climatico, utilizzeremo queste tecniche per capire quando l’estrapolazione possa diventare utile e quando pericolosa.
Facciamo una prova: utilizziamo l’interpolazione di Newton cercando un polinomio di grado N-1 badandoci su N coppie di dati; confrontiamo il risultato con il polinomio di grado M scelto attraverso la minimizzazione della funzione Mean Square Error. La funzione di errore viene calcolata sul validation set per ogni grado di polinomio che va da 1 a N-2. Utilizziamo i dati mensili di due anni a partire dal 1990 come validation set e i primi tre mesi del 1993 per il test set.
Nei prossimi grafici possiamo analizzare i risultati, rispettivamente primo e secondo metodo.
Nel primo caso ritroviamo quello che era l’effetto collaterale ritrovato nel contro esempiodi Runge: la funzione interpolante, in evidente overfitting, diverge vistosamente in corrispondenza dei dati di validation. Il metodo diventa quindi inutilizzabile per qualsiasi scopo.
Nel secondo caso, invece, troviamo qualcosa di più interessante: innanzitutto nessuna divergenza; in secondo luogo notiamo che vi è una buona approssimazione in tutto il set di dati e la “previsione” sui dati di test è abbastanza fedele (triangolini blu).
Leggiamo nell’intestazione che il polinomio che ha minimizzato la funzione dell’errore è di 7° grado. Se effettivamente questa ricostruzione del segnale (chiameremo così d’ora in poi la serie di dati della NAO) fosse la migliore per tutto il tempo del dominio allora non dovremmo avere problemi nel partire da un altro anno e quindi dovremmo ritrovare lo stesso risultato. Vediamo cosa accade, allora, se partiamo dal 1995
Anche in questo caso la “previsione” risulta buona ma purtroppo il grado del polinomio è 13; e se si cambia ancora anno di partenza e si allarga o restringe il periodo di training set il grado cambia ancora; cade così l’ipotesi che il polinomio di 7° grado (o di qualsiasi altro grado) possa ricostruire il segnale se non localmente nel periodo 1990-1993.
Una riflessione prima di concludere: innanzitutto può sembrare normale che il grado di approssimazione possa cambiare da biennio a biennio in quanto stiamo considerando il segnale come sola funzione del tempo. In realtà l’indice dipende dal tempo indirettamente in quanto dipende dalla circolazione atmosferica a larga scala e quindi a sua volta da numerose variabili, le quali a loro volta dipenderanno dal tempo; è per questa ragione che probabilmente può essere considerato un segnale un po’ … rumoroso e ne analizziamo l’andamento dal 1951 al 2003 a scala mensile
La forte presenza del rumore può dare problemi nell’utilizzo dell’estrapolazione per la previsione. Inoltre abbiamo sempre calcolato la bontà della ricostruzione del segnale facendo affidamento sui dati di “previsione”, dato che questi erano dati del passato. Ma se vogliamo effettuare una ricostruzione oggi e calcolarne la bontà così non potremmo farlo in quanto ci mancherebbero proprio di dati di previsione. Nè tantomeno possiamo usare la minimizzazione dell’errore in quanto andremmo in overfitting.
Siamo nel pallone…? Niente affatto. Concludiamo dicendo che non è banale utilizzare il metodo di estrapolazione per effettuare delle previsioni, basandoci soltanto su un tipo di variabile in un segnale rumoroso. Possiamo partire da queste informazioni e possiamo cercare di capirne di più sia sul segnale che sulla tecnica di previsione. Forse dovremmo “sviscerare” il segnale e togliere il rumore ragionando solo sulle frequenze principali? Forse dovremmo utilizzare l’estrapolazione di un’altra tecnica di ricostruzione (come le reti neurali)?
Nei prossimi post vedremo come rispondere a queste domande e come ottenere qualche informazione di più dal segnale attraverso l’analisi di Fourier.