Larisa Soldatova

Goldsmiths, Università di Londra, Regno unito

Speaker 1

Biografia: Oltre ad essere direttrice del programma online di master di scienze dei dati, la Dr. Larisa Soldatova vanta il titolo di Reader di scienze dei dati presso la Goldsmiths, Università di Londra. Soldatova è un’esperta di fama mondiale nel campo delle rappresentazioni, tecnologie semantiche e analisi di dati, nonché della loro applicazione nelle scienze naturali. È coinvolta in una serie di progetti internazionali che trattano lo sviluppo di standard semantici, quali l'ontologia per le indagini biomediche (OBI), l'ontologia per il data mining, lo schema AA, lo SBOL (synthetic biology open language) - visual ed i protocolli di laboratorio EXACT. Riconoscimenti: premio BCS Machine Intelligence (2006), candidata al World Technology Award (Software) (2006), RCUK Fellowship (2007-2012), borsa di studio Meta-QSAR (EPSRC) (2012-2014), borsa di studio AdaLab (EPSRC) (2014-2018), borsa di studio Big Mechanism Grant (DARPA) (2014-2018), borsa di studio per le ricerche sul cancro ACTION on cancer (EPSRC) (2018-2022).

Apprendimento Meta-QSAR e Multi-Task QSAR

Larisa Soldatova presenterà i risultati ottenuti nell’ambito del progetto meta-QSAR finanziato da EPSRC (Consiglio per le ricerche dell’ingegneria e della fisica del Regno Unito) (“imparare come progettare farmaci” EP/K030469/1, EP/K030582/1). Sebbene quasi ogni tipo di metodo di apprendimento automatico sia stato applicato all'apprendimento QSAR, non esiste un unico modo migliore per l’apprendimento QSAR. Il gruppo di ricercatori coinvolti nel progetto ha portato a termine il confronto più completo di metodi di apprendimento automatico per l'apprendimento QSAR: 18 metodi di regressione, 6 rappresentazioni molecolari, applicati a più di 2700 problemi QSAR. Nel corso del progetto è stata analizzata l’utilità degli algoritmi selezionati per i problemi QSAR,; grazie a ciò hanno scoperto che l’approccio di meta-apprendimento ha superato con una media del 13% il miglior metodo di apprendimento QSAR (cioè le foreste casuali con una rappresentazione di impronte digitali molecolari). Il risultato evidenzia la maggiore efficacia del meta-apprendimento rispetto agli apprendimenti base.
Il team del progetto meta-QSAR ha inoltre utilizzato l'apprendimento multi-tasking (AMT) per sfruttare le caratteristiche comuni nei bersagli farmacologici e nei test. Ha anche analizzato oltre mille test forniti dalla banca dati ChEMBL, eseguendo AMT basati su caratteristiche ed istanze per prevedere le attività del medicinale. Inoltre, il team ha introdotto una metrica naturale della distanza evolutiva tra i bersagli farmacologici come metodo di misurazione della correlazione dei compiti. I risultati degli studi AMT sono stati confrontati con i risultati del singolo apprendimento, una foresta casuale come studente QSAR con le migliori prestazioni. I risultati parlano chiaro: l’AMT basato sull'istanza ha superato di gran lunga sia l’AMT basato su caratteristiche sia lo studente base. Includendo la distanza evolutiva tra i bersagli abbiamo inoltre migliorato considerevolmente l’AMT.
I risultati del progetto meta-QSAR sono stati pubblicati e sono ora disponibili al pubblico sulla piattaforma OpenML.