Perché l'apprendimento automatico è una tendenza nella ricerca medica ma non negli studi medici?

Tecnologia scientifica

Il machine learning (ML) programma i computer in modo che apprendano il nostro modo di agire, attraverso la valutazione continua dei dati e l'identificazione di modelli basati sui risultati passati. Il machine learning può individuare rapidamente le tendenze nei grandi set di dati, operare con poca o nessuna interazione umana e migliorare le sue previsioni nel tempo. Grazie a queste capacità, si sta rapidamente facendo strada nella ricerca medica.

Le persone affette da cancro al seno potrebbero presto essere diagnosticate tramite ML più velocemente che tramite una biopsia. Il machine learning può anche aiutare le persone paralizzate a ritrovare l’autonomia utilizzando protesi controllate da modelli identificati nei dati della scansione cerebrale. La ricerca sul machine learning promette queste e molte altre possibilità per aiutare le persone a condurre una vita più sana. Ma mentre il numero di studi sul riciclaggio cresce, il suo utilizzo effettivo negli studi medici non si è ampliato.

I limiti risiedono nelle dimensioni ridotte del campione e nei set di dati unici della ricerca medica. Questi piccoli dati rendono difficile per le macchine identificare modelli significativi. Maggiore è la quantità di dati, maggiore è l'accuratezza delle diagnosi e delle previsioni ML. Per molti usi diagnostici sarebbe necessario un numero enorme di soggetti, nell’ordine delle migliaia, ma la maggior parte degli studi utilizza numeri più piccoli, nell’ordine delle decine di soggetti.

Ma ci sono modi per ottenere risultati significativi da piccoli set di dati se sai come manipolare i numeri. L'esecuzione ripetuta di test statistici con diversi sottoinsiemi di dati può indicare la significatività di un set di dati che in realtà potrebbe essere solo un valore anomalo casuale.

Questa tattica, nota come P-hacking o feature hacking in ML, porta alla creazione di modelli predittivi troppo limitati per essere utili nel mondo reale. Ciò che sembra buono sulla carta non si traduce nella capacità di un medico di diagnosticarci o curarci. Questi errori statistici, spesso commessi inconsapevolmente, possono portare a conclusioni pericolose.

Per aiutare gli scienziati a evitare questi errori e a portare avanti le applicazioni ML, Konrad Kording, professore della Penn Integrates Knowledge University con incarichi presso il Dipartimento di Neuroscienze della Perelman School of Medicine e nei Dipartimenti di Bioingegneria e Informatica e Scienze dell'Informazione presso la School of Ingegneria e scienze applicate, sta guidando un aspetto di un ampio programma finanziato dal NIH noto come CENTER – Creation an Educational Nexus for Training in Experimental Rigor. Kording guiderà il gruppo di Penn creando la Community for Rigor, che fornirà risorse ad accesso libero per condurre una solida scienza. I membri di questa comunità scientifica inclusiva potranno impegnarsi con simulazioni ML e corsi basati sulla discussione.

"La ragione della mancanza di ML negli scenari del mondo reale è dovuta all'uso improprio delle statistiche piuttosto che alle limitazioni dello strumento stesso", afferma Kording. "Se uno studio pubblica un'affermazione che sembra troppo bella per essere vera, di solito lo è, e molte volte possiamo ricondurla al loro uso delle statistiche."

Per compiere progressi significativi nel campo del machine learning nella ricerca biomedica, sarà necessario aumentare la consapevolezza su questi problemi, aiutare i ricercatori a capire come identificarli e limitarli e creare una cultura più forte attorno al rigore scientifico nella comunità di ricerca.

Kording mira a comunicare che solo perché incorporare l’apprendimento automatico nella ricerca biomedica può introdurre spazio per pregiudizi non significa che gli scienziati dovrebbero evitarlo. Devono solo capire come usarlo in modo significativo.

La Community for Rigor mira ad affrontare le sfide del settore con piani specifici per creare un modulo sull'apprendimento automatico nella ricerca biomedica che guiderà i partecipanti attraverso set di dati e test statistici e individuerà i luoghi esatti in cui vengono comunemente introdotti errori.

Questa storia è di Melissa Pappas. Maggiori informazioni su Penn Engineering Today.