Un modo più efficace per addestrare le macchine all'incertezza, al reale

Le immagini per il download sul sito web dell'ufficio notizie del MIT sono rese disponibili a entità non commerciali, stampa e pubblico in generale sotto una licenza Creative Commons Attribution Non-Commercial No Derivatives. Non è possibile modificare le immagini fornite, se non ritagliandole a misura. Per la riproduzione delle immagini è necessario utilizzare una linea di credito; se non ne viene fornito uno di seguito, accreditare le immagini a "MIT".

Immagine precedente Immagine successiva

Qualcuno che impara a giocare a tennis potrebbe assumere un insegnante per aiutarlo a imparare più velocemente. Poiché questo insegnante è (si spera) un grande giocatore di tennis, ci sono momenti in cui provare a imitarlo esattamente non aiuterà lo studente ad imparare. Forse l'insegnante salta in aria per rispondere abilmente al tiro al volo. Lo studente, incapace di copiarlo, potrebbe invece provare qualche altra mossa da solo finché non avrà padroneggiato le abilità necessarie per rispondere alle raffiche.

Gli informatici possono anche utilizzare sistemi "insegnanti" per addestrare un'altra macchina a completare un'attività. Ma proprio come nel caso dell’apprendimento umano, la macchina dello studente deve affrontare il dilemma di sapere quando seguire l’insegnante e quando esplorare da sola. A questo scopo, i ricercatori del MIT e del Technion, l’Istituto israeliano di tecnologia, hanno sviluppato un algoritmo che determina in modo automatico e indipendente quando lo studente dovrebbe imitare l’insegnante (conosciuto come apprendimento per imitazione) e quando invece dovrebbe imparare per tentativi ed errori (conosciuto come apprendimento per imitazione). come apprendimento per rinforzo).

Il loro approccio dinamico consente allo studente di divergere dal copiare l'insegnante quando l'insegnante è troppo bravo o non abbastanza bravo, per poi tornare a seguire l'insegnante in un momento successivo del processo di formazione se così facendo si otterrebbero risultati migliori e un apprendimento più rapido.

Quando i ricercatori hanno testato questo approccio nelle simulazioni, hanno scoperto che la combinazione di apprendimento per tentativi ed errori e di apprendimento per imitazione consentiva agli studenti di apprendere compiti in modo più efficace rispetto ai metodi che utilizzavano un solo tipo di apprendimento.

Questo metodo potrebbe aiutare i ricercatori a migliorare il processo di addestramento per le macchine che verranno impiegate in situazioni reali incerte, come un robot addestrato a spostarsi all’interno di un edificio mai visto prima.

"Questa combinazione di apprendimento per tentativi ed errori e di seguire un insegnante è molto potente. Dà al nostro algoritmo la capacità di risolvere compiti molto difficili che non possono essere risolti utilizzando entrambe le tecniche individualmente", afferma Idan Shenfeld, ingegnere elettrico e informatico. (EECS) studente laureato e autore principale di un articolo su questa tecnica.

Shenfeld ha scritto l'articolo con i coautori Zhang-Wei Hong, uno studente laureato EECS; Aviv Tamar; professore assistente di ingegneria elettrica e informatica al Technion; e l'autore senior Pulkit Agrawal, direttore dell'Improbable AI Lab e assistente professore presso il Laboratorio di informatica e intelligenza artificiale. La ricerca sarà presentata alla Conferenza Internazionale sul Machine Learning.

Trovare un equilibrio

Molti metodi esistenti che cercano di trovare un equilibrio tra apprendimento per imitazione e apprendimento per rinforzo lo fanno attraverso tentativi ed errori di forza bruta. I ricercatori scelgono una combinazione ponderata dei due metodi di apprendimento, eseguono l’intera procedura di formazione e quindi ripetono il processo finché non trovano l’equilibrio ottimale. Questo è inefficiente e spesso così costoso dal punto di vista computazionale da non essere nemmeno fattibile.

"Vogliamo algoritmi basati su principi, che coinvolgano la messa a punto del minor numero di manopole possibile e che raggiungano prestazioni elevate: questi principi hanno guidato la nostra ricerca", afferma Agrawal.

Per raggiungere questo obiettivo, il team ha affrontato il problema in modo diverso rispetto al lavoro precedente. La loro soluzione prevede la formazione di due studenti: uno con una combinazione ponderata di apprendimento per rinforzo e apprendimento per imitazione, e un secondo che può utilizzare solo l’apprendimento per rinforzo per apprendere lo stesso compito.