Non è capzioso. E' proprio così che invece funziona la percezione. Ci sono diverse strutture nel cervello che anticipano i dati sensoriali. Da una parte i dati sensoriali sono rumorosi, e quindi combinarli con un modello predittivo è un vantaggio (una cosa che poi sarà riscoperta come filtro di Kalman, nella sua più elementare realizzazione artificiale). Dall'altra la anticipazione sensoriale è l'anticamera del pensiero (posso immaginare una cosa che non esiste e vederla, come nei sogni per esempio).
Quello che tu vedi è, sempre, una interpretazione del mondo mediata da modelli interpretativi che hai costruito in precedenza.
Queste idee sono ampiamente assodate ormai:
https://www.frontiersin.org/articles/10 ... 01443/full (guarda l'introduzione, ma di studi come questi ce ne sono a bizzeffe).
Che la visione sia interpretazione guidata di dati sensoriali scarsi è ormai una certezza.
Il motivo per cui, per esempio tutti percepiscono il quadrato B più chiaro di A (
https://it.m.wikipedia.org/wiki/File:Gr ... lusion.svg mentre invece sono uguali) è perché noi non vediamo le cose tal quali ma interpretiamo il mondo in base a un modello (il cilindro che fa ombra sulla scacchiera). Quello che vediamo è influenzato dalle aspettative anche di altro livello.
Questo è il motivo per cui, quando ci si trova in un territorio percettivo inesplorato (osservazioni al limite) crediamo di vedere cose oggettive e invece sono solo cose generate internamente spingendo al limite della inaffidabilità i modelli interni che abbiamo.
Per esempio c'è chi vede la luce cinerea su Venere che però non viene mai fotografata. Eppure è convinto di vederla ma in realtà è vittima di una interpretazione erronea come quella del triangolo di di Kanizsa
https://www.illusionsindex.org/i/kanizsa-triangle dove si vede un triangolo "più bianco" dove invece non c'è. E' un modello interno che predice la presenza di un oggetto (che non c'è).
Quindi, assodato che vedere non è percepire il mondo tal quale ma interpretare il mondo, bisogna stare attenti che alcuni processi (come una deconvoluzione) elaborano solo il segnale, mentre altri (come le reti neurali) integrano il segnale con informazioni che sono memorizzate nelle reti dopo che sono star addestrate in precedenza. Funzionano, in maniera rozza, come il triangolo di Kanisca. Per esempio se "sanno" che c'è un triangolo lo fanno più triangolo (anche se i dati in partenza non garantiscono affatto che i lati siano proprio dritti... ma la rete crede che sia un triangolo e li fa diritti ed ecco magicamente apparire definizione inventata).
PS non dobbiamo fermarci allo stacking. Sono lecite tutte le manipolazioni basate su qualsiasi algoritmo che però non contenga informazione a priori (tipo deconvoluzione). Le reti contengono informazioni a priori e le aggiungono.