Scusate se ci ho messo un po' a rispondere.
Ho fatto alcuni test e i risultati sono interessanti.
Innazitutto vi illustro la metodologia in modo che possiate dirmi se secondo voi ha senso ciò che ho fatto o se cambiereste qualcosa.
1) Ho generato dei dati composti da 50 campioni (un numero ragionevole di foto) con una deviazione standard prefissata (5, 10 o 15) a cui ho aggiunto un certo numero (10, 20 e 40% del numero totale di campioni) di outliers rappresentati da una distribuzione uniforma compresa tra (mu +/- 40% i.e. tra 75 e 175).
2) A questo punto per ogni set di dati ho calcolato il valore "medio" calcolato con alcuni metodi. In particolare:
- media "classica"
- k-sigma clipping
- autoadaptive weighted average (vedi nota)
- empirical PDF fitting (il metodo di cui stiamo parlando su questo topic) realizzato con la funzione matlab FITDIST (
documentazione).
3) ho ripetuto la procedura 100'000 volte e ho generato la distribuzione dei valori previsti da ciascun metodo.
Risultati:
Vi allego la figura
Allegato:
benchmark.jpg [ 169.87 KiB | Osservato 1387 volte ]
(nota: le curve blu e viola sono perfettamente sovrapposte)
A mio parere da questo semplice test ci sono due informazioni interessanti:
1) L'autoadaptive weighted average ha prestazioni solo minimamente migliori rispetto al sigma-clipping
2) Sorprendentemente la media "classica" si comporta piuttosto bene nel caso di dati rumorosi. Persino meglio dei metodi più elaborati!
3) Il valore stimato da FITDIST è esattamente identico alla media "classica"

Questo però credo dipenda da come funziona FITDIST. Ora sto riprovando con una procedura iterativa di gradient-descend. Questa seconda procedura però è molto più lenta, ma almeno ci fa capire se l'idea ha senso.
NOTA RIGUARDO L'AUTOADAPTIVE WEIGHTED AVERAGE
Il paper a cui sia DSS, sia altri fanno riferimento riguardo l'autoadaptive weighted average (AAWA per gli amici), è sempre Artificial Skepticism (AS) (Stetson 1989, V Advanced School of Astrophysics [Univerisidade de Sao Paulo], p.1.) .
Peccato che questo paper non sia indicizzato Scopus!!!

Fatto sta che cercando ho trovato l'equazione

riportata quasi sempre con le stesse identiche parole. Peccato che in questa definizione non sia chiaro cosa sia il valore di sigma_i dato che non ha senso parlare di "deviazione standard di un campione"! La deviazione standard va riferita
a una popolazione!
Cercando ancora ho trovato questo sito
https://ned.ipac.caltech.edu/level5/Ste ... tents.html. Si tratta di un sito arcaico di 27 anni fa, ma credo che la citazione venga da qui, ma non sono comunque riuscito a trovare il punto esatto in cui compare la formula.
Nella mia riscrittura dell'AAWA ho dovuto quindi "improvvisare" e la cosa più logica mi è sembrata usare una deviazione standard "pesata" (presa da
qui) con i pesi w_i dell'iterazione precedente.
Vi tengo aggiornati...
PS: l'invito ad aiutare è sempre aperto
