venerdì, Ottobre 4, 2024

Visualizzazioni uniche di reti neurali: decodificatore automatico rispetto al riconoscimento sensoriale umano

| Data:

riepilogo: Un nuovo studio approfondisce il misterioso mondo delle reti neurali profonde, scoprendo che mentre questi modelli possono riconoscere oggetti simili ai sistemi sensoriali umani, le loro strategie di riconoscimento differiscono dalla percezione umana. Quando alle reti viene chiesto di generare stimoli simili a un dato input, spesso producono immagini e suoni irriconoscibili o distorti.

Ciò suggerisce che le reti neurali coltivano le proprie “costanti” distinte, che sono nettamente diverse dai modelli percettivi umani. La ricerca fornisce approfondimenti sulla valutazione di modelli che imitano le percezioni sensoriali umane.

Aspetti principali:

  1. Le reti neurali profonde, quando generano stimoli simili a un dato input, spesso producono immagini o suoni che non hanno alcuna somiglianza con il bersaglio.
  2. I modelli sembrano sviluppare costanti uniche, diverse dai sistemi percettivi umani, che fanno loro percepire gli stimoli in modo diverso rispetto agli esseri umani.
  3. L’uso dell’allenamento competitivo può rendere gli stimoli generati dal modello più riconoscibili per gli esseri umani, anche se non sono identici all’input originale.

fonte: Istituto di Tecnologia del Massachussetts

I sistemi sensoriali umani sono molto bravi a riconoscere le cose che vediamo o le parole che sentiamo, anche se l’oggetto è capovolto o la parola viene pronunciata con un suono che non abbiamo mai sentito prima.

I modelli computerizzati noti come reti neurali profonde possono essere addestrati a fare la stessa cosa, identificando correttamente l’immagine di un cane indipendentemente dal colore della sua pelliccia o identificando una parola indipendentemente dal tono della voce di chi parla. Tuttavia, un nuovo studio condotto da neuroscienziati del MIT rileva che questi modelli spesso rispondono allo stesso modo a immagini o parole diverse dal bersaglio.

Quando queste reti neurali venivano utilizzate per generare un’immagine o una parola che rispondeva allo stesso modo di uno specifico input naturale, come l’immagine di un orso, la maggior parte di esse generava immagini o suoni che gli osservatori umani non potevano riconoscere. Ciò suggerisce che questi modelli costruiscono le proprie “invarianti”, nel senso che rispondono allo stesso modo a stimoli con caratteristiche molto diverse.

I risultati offrono ai ricercatori un nuovo modo per valutare quanto bene questi modelli imitano l’organizzazione della percezione sensoriale umana, afferma Josh McDermott, professore associato di scienze del cervello e cognitive al MIT e membro del McGovern Institute for Brain Research e del Center for Brains del MIT. . Menti e macchine.

“Questo articolo mostra che è possibile utilizzare questi modelli per estrarre segnali anomali che alla fine portano a una diagnosi delle rappresentazioni nel modello”, afferma McDermott, autore principale dello studio. “Questo test dovrebbe diventare parte di una serie di test che utilizziamo come campo per valutare i modelli”.

READ  Il rover Perseverance su Marte filma i detriti del suo atterraggio

Jenelle Feather Ph.D. ’22, ora ricercatrice presso il Centro per le neuroscienze computazionali del Flatiron Institute, è l’autrice principale dell’articolo ad accesso aperto, pubblicato oggi su Neuroscienze normali. Anche Guillaume Leclerc, uno studente laureato al MIT, e Alexandre Madry, professore Cadence di Design Systems for Computing al MIT, sono autori dell’articolo.

Percezioni diverse

Negli ultimi anni, i ricercatori hanno addestrato reti neurali profonde in grado di analizzare milioni di input (suoni o immagini) e apprendere caratteristiche comuni che consentono loro di classificare una parola o un oggetto target con la stessa precisione degli esseri umani. Questi modelli sono attualmente considerati i principali modelli di sistemi sensoriali biologici.

Si pensa che quando il sistema sensoriale umano esegue questo tipo di categorizzazione, impari a ignorare caratteristiche che non sono legate all’identità di base dell’oggetto, come la quantità di luce che lo colpisce o l’angolo da cui viene osservato. Questo è noto come invarianza, il che significa che gli oggetti sono percepiti come uguali anche se mostrano differenze nelle caratteristiche meno importanti.

“Classicamente, il modo in cui pensavamo ai sistemi sensoriali è che costruiscono invarianti per tutte le fonti di variazione che diversi esempi della stessa cosa possono avere”, afferma Feather. “L’organismo deve percepire che sono la stessa cosa, anche se appaiono come segnali sensoriali completamente diversi”.

I ricercatori si sono chiesti se le reti neurali profonde addestrate per eseguire compiti di classificazione potessero evolvere invarianti simili. Per cercare di rispondere a questa domanda, hanno utilizzato questi modelli per generare stimoli che producessero lo stesso tipo di risposta all’interno del modello come stimolo di esempio che i ricercatori hanno fornito al modello.

Chiamano questi stimoli “misure tipiche”, facendo rivivere un’idea della classica ricerca sulla percezione in cui stimoli indistinguibili da un sistema possono essere utilizzati per diagnosticare le sue costanti. Il concetto di analogie è stato originariamente sviluppato nello studio della percezione umana per descrivere colori che appaiono identici anche se sono composti da diverse lunghezze d’onda della luce.

Con loro sorpresa, i ricercatori hanno scoperto che la maggior parte delle immagini e dei suoni prodotti in questo modo non somigliavano agli esempi originariamente forniti dai modelli. La maggior parte delle immagini erano un miscuglio di pixel dall’aspetto casuale e i suoni erano come rumori incomprensibili. Quando i ricercatori hanno mostrato le immagini agli osservatori umani, nella maggior parte dei casi gli esseri umani non hanno classificato le immagini sintetizzate dai modelli nella stessa categoria dell’esempio target originale.

READ  L'asse terrestre cambia a causa dell'acqua

“In realtà sono completamente irriconoscibili per gli esseri umani. Non sembrano né suonano naturali e non hanno caratteristiche interpretabili che chiunque possa utilizzare per classificare un oggetto o una parola”, afferma Feather.

I risultati suggeriscono che i modelli hanno in qualche modo sviluppato costanti proprie che differiscono da quelle riscontrate nei sistemi cognitivi umani. Ciò fa sì che i modelli percepiscano le coppie di stimoli come uguali anche se sono significativamente diverse dagli esseri umani.

Costanti giurisprudenziali

I ricercatori hanno riscontrato lo stesso effetto in molti paradigmi visivi e uditivi diversi. Tuttavia, ciascuno di questi modelli sembra sviluppare costanti uniche. Quando gli indicatori di un modello venivano presentati a un altro modello, gli indicatori del secondo modello non erano così riconoscibili come lo erano per gli osservatori umani.

“La conclusione principale di tutto ciò è che questi modelli sembrano avere quelli che chiamiamo invarianti caratteristici”, afferma McDermott. “Hanno imparato a essere invarianti rispetto a queste dimensioni specifiche del campo di stimolo, che è specifico per un modello specifico, quindi altri modelli non hanno gli stessi invarianti.”

I ricercatori hanno anche scoperto che potrebbero stimolare i parametri del modello affinché siano più riconoscibili per gli esseri umani utilizzando un approccio chiamato formazione contraddittoria. Questo approccio è stato originariamente sviluppato per combattere un’altra limitazione dei modelli di riconoscimento degli oggetti, ovvero che l’introduzione di modifiche piccole, quasi impercettibili a un’immagine, può far sì che il modello la riconosca erroneamente.

I ricercatori hanno scoperto che l’allenamento competitivo, che prevedeva l’inclusione di alcune di queste immagini leggermente modificate nei dati di allenamento, produceva modelli i cui parametri erano più riconoscibili per gli esseri umani, sebbene non ancora riconoscibili come gli stimoli originali. I ricercatori affermano che questo miglioramento sembra essere indipendente dall’effetto dell’addestramento sulla capacità dei modelli di resistere agli attacchi ostili.

“Questo tipo di allenamento ha un grande effetto, ma non sappiamo davvero perché ci sia questo effetto”, dice Feather. “Questa è un’area per la ricerca futura”.

Secondo i ricercatori, l’analisi delle metriche prodotte dai modelli computazionali potrebbe essere uno strumento utile per aiutare a valutare quanto un modello computazionale imiti l’organizzazione di base dei sistemi percettivi umani.

READ  L'astronauta James McDevitt, che ha guidato le missioni Gemini e Apollo, è morto all'età di 93 anni

“Si tratta di un test comportamentale che è possibile eseguire su un particolare modello per vedere se le costanti sono condivise tra il modello e gli osservatori umani”, afferma Feather. “Può anche essere utilizzato per valutare quanto specifiche siano le costanti all’interno di un dato modello, il che potrebbe aiutare a rivelare potenziali modi per migliorare i nostri modelli in futuro.”

Finanziamento: La ricerca è stata finanziata dalla National Science Foundation, dal National Institutes of Health, dal Department of Energy Graduate Fellowship in Computational Science e da una Friends of the McGovern Institute Fellowship.

Informazioni sulle novità sulla ricerca sull’intelligenza artificiale e sulla cognizione

autore: Sarah McDonnell
fonte: Istituto di Tecnologia del Massachussetts
comunicazione: Sarah McDonnell – Massachusetts Institute of Technology
immagine: Immagine accreditata a Neuroscience News

Ricerca originale: Accesso libero.
Gli strumenti di misurazione tipici rivelano diversi invarianti tra le reti neurali biologiche e artificiali“Di Josh McDermott et al. Neuroscienze normali


un sommario

Gli strumenti di misurazione tipici rivelano diversi invarianti tra le reti neurali biologiche e artificiali

I modelli di reti neurali profonde dei sistemi sensoriali vengono spesso proposti per apprendere trasformazioni rappresentazionali con invarianze come quelle nel cervello. Per rivelare queste invarianti, abbiamo creato “stimoli modello”, ovvero stimoli le cui attivazioni all’interno della fase modello corrispondono a quelle dello stimolo naturale.

Gli strumenti per i moderni modelli di rete neurale supervisionata e non supervisionata della vista e dell’udito sono stati spesso completamente irriconoscibili per gli esseri umani quando generati dalle fasi avanzate del modello, suggerendo differenze tra il modello e gli invarianti umani. Le modifiche mirate del modello hanno migliorato il riconoscimento umano degli strumenti di misurazione del modello, ma non hanno eliminato la discrepanza complessiva del modello uomo-uomo.

La riconoscibilità umana delle metriche del modello è ben prevista dalla loro riconoscibilità da parte di altri modelli, suggerendo che i modelli contengono invarianti distinti oltre a quelli richiesti dal compito.

La riconoscibilità dei metameri è disaccoppiata sia dai criteri tradizionali basati sul cervello che da quelli debolmente contraddittori, rivelando una distinta modalità di fallimento dei modelli sensoriali esistenti e fornendo un criterio complementare per la valutazione del modello.

Popolare

Altri simili