Luca, quello che dici e' ovviamente tutto corretto, visto che fai riferimento alle basi della statistica, ma il problema e' ben piu' complesso e sfaccettato di quel che mi pare tu stia considerando, e le armi potenzialmente nelle nostre mani sono secondo me ben piu' interessanti di una banale media.
Non a caso, per quanto ti possano apparire simili, i risultati delle differenti tecniche di rimozione degli outliers sono effettivamente diversi a seconda del tipo di materiale in ingresso (se non ricordo male, sigma median lavora meglio di sigmaclip con poche pose, ad esempio), segno che qualcosa si puo' fare per ottimizzare.
Innanzitutto vorrei evidenziare che il rumore che riscontriamo alla fine e' la somma di diversi contributi, in origine non tutti gaussiani (vedasi lo shot noise).
Non mi spendo in una descrizione puntuale perche' ci sono tante interessanti fonti in rete. Una particolarmente chiara e' ad esempio questa:
http://qsimaging.com/ccd_noise.htmlo questa:
http://www.photometrics.com/resources/t ... fs/snr.pdfOra, posto che l'obiettivo dell'astrofotografo e' evidenziare quanto piu' segnale possibile, senza un preciso limite, non tutte le sorgenti di rumore sono uguali e non tutti i metodi per combatterlo sono ugualmente efficienti.
Innanzitutto si possono fare pose lunghe.
Come puoi facilmente immaginare, quello che avviene all'interno della singola posa e' una "media" (tecnicamente e' una somma, ma rapportata al tempo di esposizione e' la stessa cosa) del segnale e del rumore, che abbatte efficacemente tutte le sorgenti gaussiane o che ad un certo punto diventano tali (la distribuzione poissoniana tende ad una gaussiana al crescere del numero dei campioni).
In sostanza le pose lunghe combattono efficacemente tutte le sorgenti di rumore incorrelate. In particolare combatte bene il rumore di lettura che, essendo indipendente dal tempo, diventa rapidamente trascurabile al crescere della durata della posa. Rimane solo quello dovuto ad interferenze elettroniche, che puo' essere lavorato con tecniche di filtraggio nel dominio della frequenza. Di contro le pose lunghe sono irrimediabilmente vittime degli outliers (raggi cosmici, satelliti...), qiundi una sola posa non sarebbe di sicuro sufficiente in ogni caso.
In ogni caso poi le pose non possono essere infinitamente lunghe, anzi spesso il limite e' relativamente basso, vuoi per la difficolta' di ottenere pose ben guidate per un lungo tempo, vuoi per il rischio crescente che qualcosa vada storto nella singola posa, vuoi per minimizzare gli effetti del seeing "lento", vuoi soprattutto per evitare fenomeni di saturazione dovuti a stelle e fondo cielo.
Per questo motivo si utilizza la composizione di piu' pose relativamente brevi.
In questo caso pero' diventa piu' importante conoscere le componenti del rumore, perche' qualcosa cambia:
- la quantizzazione del segnale comincia ad avere piu' peso: nelle regioni in cui il segnale e' piu' debole, il numero di fotoni rivelati e' comparabile con la soglia del convertitore A/D
- lo shot noise comincia ad avere effettivamente una distribuzione poissoniana, e si vede perche' la somma "stretchata" presenta dei "buchi" nelle zone piu' deboli
Tra le armi a nostra disposizione e che mi piacerebbe utilizzare, posto che innanzitutto i contributi dei pixel deve assolutamente essere uniformato con dark e flat per conferirgli il giusto valore statistico, ricordo:
- ovviamente, la statistica sul medesimo pixel, che e' quello che normalmente si fa
- una ricca fonte di informazione sul rumore, ricavabile dai milioni di pixel presenti in ogni posa, che ci consente di caratterizzarlo con grande precisione
- la comparazione fra i dati di pixel vicini (nelle varie pose), per riconoscere ad esempio un "buco" di segnale vero fra compagni piu' luminosi da un effetto dell'arrivo randomico dei fotoni) o anche un outlier in maniera piu' efficace.
In particolare vorrei, ma le mie basi di statistica non sono sufficientemente solide, capire quanta informazione sia possibile ricavare dalla seconda fonte, con l'obiettivo di distinguere e quantificare le varie tipologie di sorgente di rumore e magari riuscire a sfruttare questi dati in maniera proficua.
Detto questo, se puoi aiutarmi in questa direzione, sarei ben felice di avviare una collaborazione (ho gia' fatto diverse simulazioni con matlab, andando un po' a sentimento, ma finora non ho trovato risultati interessanti)