Le applicazioni dell'apprendimento automatico in biologia

0

Apprendimento automatico has several applications in diverse fields, ranging from assistenza sanitaria to natural language processing. Dr. Ragothanam Yennamalli, a computational biologist and Kolabtree freelancer, examines the applications of AI and apprendimento automatico in biologia. 

Machine Learning and Intelligenza artificiale — these technologies have stormed the world and have changed the way we work and live. Advances in these areas have led to many either praising it or decrying it. However, for a computational person like me, they are not new words. AI and ML, as they’re popularly called, have several applications and benefits across a wide range of industries. Most notably, they are revolutionizing the way biological research is performed, leading to new innovations across assistenza sanitaria e biotecnologia.

Cos'è l'apprendimento automatico?

Apprendimento automatico e statistiche are closely knit. The reason is that the methods used in most machine learning approaches have origins from statistics such as regression analysis. While there are many applications for machine learning methods, their applications to biological data since the last 30 years or so have been in gene prediction, functional annotation, systems biology, microarray analisi dei dati, pathway analysis, etc.

Patterns is what a machine tries to identify in a given data, using which it tries to identify a similar pattern in another set of data. The processes of machine learning are quite similar to predictive modelling and data mining. They search data to identify patterns and alter the action of program, accordingly.

Siamo consapevoli dell'apprendimento automatico e dell'IA attraverso gli strumenti di shopping online, dal momento che vengono suggerite alcune raccomandazioni relative al nostro acquisto. Questo accade perché i motori di raccomandazione lavorano sull'apprendimento automatico. L'apprendimento automatico ha anche altre applicazioni come il filtraggio dello spam, il rilevamento delle minacce alla sicurezza, il rilevamento delle frodi e la personalizzazione dei feed di notizie.

L'apprendimento automatico è principalmente categorizzato in tre tipi: apprendimento supervisionato, apprendimento non supervisionato e apprendimento di rinforzo.

Apprendimento supervisionato: Supervised machine learning algorithms require external assistance. The external assistance is usually through a human expert who provides curated input for the desired output to predict accuracy in algorithm training. The expert or data scientist determines the features or patterns that the model would use. Once the training is completed, then it can be applied to test another data for the prediction and classification. It is supervised because the algorithm learns from the training data set akin to a teacher supervising the learning process of a student.

Inoltre, l'apprendimento supervisionato è diviso in due categorie, classificazione e regressione. Nella classificazione, la variabile di uscita è categorizzata in classi come 'rosso' o 'verde' o 'malattia' o 'non malattia'. Nella regressione, la variabile di uscita è un valore reale come "dollari" o "peso".

Quindi, nei classificatori supervisionati viene fornito un set di allenamento per addestrare la macchina e questa viene valutata con un set di test. La cosa più importante in questi classificatori è come si va a costruire un set di allenamento. Nella maggior parte dei casi, avere un set di allenamento di alta qualità fa o rompe l'apprendimento della macchina. Si dovrebbe anche considerare i dati negativi che vengono forniti come parte del set di allenamento. A volte, diventa difficile identificare un buon set di dati negativi.

For example, if I would want to develop/train a machine to predict if two proteins interact (Protein-Protein interactions or PPI) or not; I would require a positive set of protein sequences/structures that have been proven to interact physically (such as X-ray crystallography, NMR data) and I would require a negative set of protein sequences/structures that  are known to work without interacting with. a partner. In this case, the negative set is relatively large in comparison to the positive set, since the data of known PPI is significantly less as compared to the proteome of an organism. Thus, critically analyzed data is needed and this takes time.

Apprendimento non supervisionato: Negli algoritmi di apprendimento non supervisionato non è richiesta alcuna assistenza esterna. Il programma del computer cerca automaticamente la caratteristica o il modello dai dati e li raggruppa in cluster. Quando introduciamo nuovi dati per la previsione, allora usa le caratteristiche precedentemente apprese per classificare i dati. Questo metodo è molto utile nell'era dei grandi dati perché richiede un'enorme quantità di dati di allenamento. È chiamato apprendimento non supervisionato perché non c'è nessun insegnante o supervisione coinvolta.

L'apprendimento non supervisionato è ulteriormente classificato in tre classi come il clustering, il clustering gerarchico e il modello di miscela gaussiana. Nel metodo di clustering, si scopre la relazione tra tipi simili di dati e si raggruppa in cluster. Nel clustering gerarchico, i dati sono raggruppati sulla base di piccoli cluster da alcune misure di somiglianza. Poi, sulla base di alcuni parametri simili i sotto-cluster sono raggruppati di nuovo. Nel modello di miscela gaussiana, ogni componente della miscela presenta un cluster unico.

Apprendimento per rinforzo: Nell'apprendimento per rinforzo la decisione viene presa sulla base delle azioni intraprese che danno un risultato più positivo. L'allievo non sa quale azione intraprendere, può decidere eseguendo le azioni e vedendo i risultati. Quindi, questo apprendimento dipende da prove ed errori [5].

The most promising implementation of machine learning and artificial intelligence is in personalized medicine and in medicina di precisione. In recent years, many startups have focused on this and have developed pipelines. It is worth waiting to see if these translate into commodities that benefit the common man in the long run.

Applicazioni dell'apprendimento automatico in biologia

Identificare le regioni di codifica dei geni
In the area of genomica, next-generation sequencing has rapidly advanced the field by sequencing a genome in a short time. Thus, an active area machine learning is applied to identifying gene coding regions in a genome. Such gene prediction tools that involve machine learning would be more sensitive than typical homolog based sequence searches.

Previsione della struttura
In proteomics, we touched upon PPI earlier. But, the use of machine learning in structure prediction has pushed the accuracy from 70% to more than 80%. The use of machine learning in text-mining is quite promising with using training sets to identify new or novel drug targets from multiple journal articles and searching secondary databases.

Reti neurali
Apprendimento profondo is a more recent subfield of machine learning that is the extension of neural network. In deep learning “deep” refers to the number of layers through which data is transformed. So, deep learning is similar to neural network with multi-layers. These multi-layers nodes try to mimic how the human brain thinks to solve the problems. Neural networks are already used by machine learning. Neural network-based machine learning algorithms needs refined or significant data from raw data sets to perform analysis. But increasing data of genome sequencing made it difficult to process meaningful information and then perform the analysis. Multi layers in neural network filter the information and communicate to each layer and permit to refine the output.

Gli algoritmi di apprendimento profondo estraggono le caratteristiche da grandi set di dati come un gruppo di immagini o genomi e sviluppano un modello sulla base delle caratteristiche estratte. Una volta che il modello è sviluppato, gli algoritmi possono utilizzare il modello sviluppato per eseguire l'analisi di altri set di dati. TOggi, gli scienziati utilizzano algoritmi di deep learning per eseguire la classificazione delle immagini cellulari, l'analisi del genoma, la scoperta di farmaci e anche scoprire come i dati delle immagini e del genoma sono collegati alle cartelle cliniche elettroniche. Oggi l'apprendimento profondo è un campo attivo nella biologia computazionale. L'apprendimento profondo è applicato ai dati biologici ad alta produttività che aiutano a capire meglio il set di dati ad alta dimensione. In biologia computazionale, l'apprendimento profondo è usato nella genomica normativa per l'identificazione delle varianti normative, l'effetto della mutazione usando la sequenza di DNA, analizzando cellule intere, popolazioni di cellule e tessuti [11].

AI nella sanità
Machine learning and AI are being used extensively by hospitals and health service providers to improve patient satisfaction, deliver personalized treatments, make accurate predictions and enhance the quality of life. It is also being used to make studi clinici more efficient and help speed up the process of drug discovery and delivery.

LEGGI ANCHE  Otto articoli imperdibili sulla scienza dei dati di febbraio 2018

Per citare il lavoro di Google che impiega AI nei dati sanitari [17, 18]

I medici sono già sommersi da avvisi e richieste di attenzione - i modelli potrebbero aiutare i medici con compiti noiosi e amministrativi in modo che possano concentrarsi meglio sul paziente di fronte a loro o su quelli che hanno bisogno di ulteriore attenzione? Possiamo aiutare i pazienti a ottenere un'assistenza di alta qualità indipendentemente da dove la cercano?

E dal punto di vista del paziente

Quando potrò tornare a casa? Guarirò? Dovrò tornare in ospedale?

Strumenti di apprendimento automatico utilizzati in biologia

Profilatore di cellule: Pochi anni fa, il software per l'analisi delle immagini biologiche misurava solo un singolo parametro da un gruppo di immagini. Come, nel 2005, un biologo computazionale, Anne Carpenter del MIT e Harvard ha rilasciato un software chiamato CellProfiler per la misurazione di caratteristiche quantitativamente individuali come il numero di cellule fluorescenti nel campo della microscopia. Ma, attualmente CellProfiler può produrre migliaia di caratteristiche implementando tecniche di apprendimento profondo.

DeepVariant: L'applicazione del deep learning è ampiamente utilizzata negli strumenti per l'estrazione dei dati del genoma. Scienza della vita Verily e Google ha sviluppato uno strumento basato sull'apprendimento profondo chiamato DeepVariant che predice un tipo comune di variazione genetica in modo più accurato rispetto agli strumenti convenzionali.

Atomwise: Un altro campo è la scoperta della droga in cui l'apprendimento profondo contribuisce significativamente. Una società biotecnologica con sede a San Francisco chiamata Atomwise ha sviluppato un algoritmo che aiuta a convertire le molecole in pixel 3D. Questa rappresentazione aiuta a rappresentare la struttura 3D delle proteine e delle piccole molecole con precisione atomica. Quindi, utilizzando queste caratteristiche, l'algoritmo può predire le piccole molecole che possono interagire con una data proteina [12].

Different types of deep learning methods exist such as deep neural network (DNN), recurrent neural network (RNN), convolution neural network (CNN), deep autoencoder (DA), deep Boltzman machine (DBM), deep belief network (DBN) and deep residual network (DRN) etc. In the field of biology some methods like, DNN, RNN, CNN, DA and DBM are most commonly used methods [13]. Translation of biological data to perform validation of biomarcatori that reveal disease state is a key task in biomedicine. DNN plays significant role in the identification of potential biomarkers from genome and proteome data. Deep learning also play important role in drug discovery [14].

CNN è stato utilizzato lo strumento computazionale DeepCpG recentemente sviluppato per prevedere gli stati di metilazione del DNA in singole cellule. Nella metilazione del DNA, i gruppi metilici sono associati alla molecola di DNA e alterano le funzioni della molecola di DNA senza causare alcun cambiamento nella sequenza. DeepCpG è stato utilizzato anche per la predizione di motivi noti che sono responsabili della variabilità della metilazione. DeepCpG ha predetto risultati più accurati rispetto ad altri metodi quando la valutazione ha utilizzato cinque diversi tipi di dati di metilazione. La metilazione del DNA è un marcatore epigenetico più ampiamente studiato [15].

TensorFlow è un framework di apprendimento profondo sviluppato dai ricercatori di Google. TensorFlow è un software sviluppato di recente che accelera la progettazione e l'addestramento DNN. È implementato in diversi miglioramenti come la visualizzazione grafica e la complicazione del tempo. Il miglioramento principale di TensorFlow è che, è disponibile con strumenti di supporto chiamati TensorBoard utilizzati per la visualizzazione dei progressi di formazione del modello. Può fornire la visualizzazione di un modello complesso [16].

In conclusione, l'IA e l'apprendimento automatico stanno cambiando il modo in cui i biologi svolgono la ricerca, la interpretano e la applicano per risolvere i problemi. Poiché la scienza diventa sempre più interdisciplinare, è inevitabile che la biologia continui a prendere in prestito dall'apprendimento automatico, o meglio, che l'apprendimento automatico faccia strada.

Necessità di assumere un consulente di apprendimento automatico per un progetto? Consulta gli esperti freelance su Kolabtree. Pubblicare il tuo progetto e ricevere preventivi è gratuito!

Riconoscimento: L'autore desidera ringraziare il signor Arvind Yadav per l'assistenza in questo post del blog.

Riferimenti e ulteriori letture:

  1. http://www.bbc.com/news/technology-43127533
  2. https://www.wired.com/story/why-artificial-intelligence-researchers-should-be-more-paranoid/
  3. https://www.theverge.com/2018/2/20/17032228/ai-artificial-intelligence-threat-report-malicious-uses
  4. http://www.thehindu.com/opinion/lead/the-politics-of-ai/article22809400.ece?homepage=true
  5. https://www.economist.com/news/science-and-technology/21713828-silicon-valley-has-squidgy-worlds-biology-and-disease-its-sights-will
  6. Raina, C. K. (2016). Una rassegna sulle tecniche di apprendimento automatico. Rivista internazionale sulle tendenze recenti e innovative nell'informatica e nella comunicazione4(3), 395-399.
  7. Jordan, M. I., & Mitchell, T. M. (2015). Apprendimento automatico: Tendenze, prospettive e prospettive. Scienza349(6245), 255-260.
  8. Praveena, M., & Jaiganesh, V. (2017). A revisione della letteratura on supervised machine learning algorithms and boosting process. Rivista internazionale di applicazioni informatiche169(8), 32-35.
  9. Forsberg, F., & Alvarez Gonzalez, P. (2018). Apprendimento automatico non supervisionato: An Investigation of Clustering Algorithms on a Small Dataset.
  10. Gosavi, A. (2009). Apprendimento per rinforzo: Un'indagine tutorial e progressi recenti. INFORMS Journal on Computing21(2), 178-192.
  11. Angermueller, C., Pärnamaa, T., Parti, L., & Stegle, O. (2016). Apprendimento profondo per la biologia computazionale. Biologia dei sistemi molecolari12(7), 878.
  12. Webb, S. (2018). Apprendimento profondo per la biologia. Nature. 2018 554(7693):555-557.
  13. Mahmud, M., Kaiser, M. S., Hussain, A., & Vassanelli, S. (2018). Applicazioni del deep learning e del reinforcement learning ai dati biologici. IEEE transactions on neural networks and learning systems29(6), 2063-2079.
  14. Mamoshina, P., Vieira, A., Putin, E., & Zhavoronkov, A. (2016). Applicazioni del deep learning in biomedicina. Farmaceutica molecolare13(5), 1445-1454.
  15. Angermueller, C., Lee, H. J., Reik, W., & Stegle, O. (2017). DeepCpG: previsione accurata degli stati di metilazione del DNA di una singola cellula utilizzando l'apprendimento profondo. Biologia del genoma18(1), 67.
  16. Rampasek, L., & Goldenberg, A. (2016). Tensorflow: La porta d'accesso della biologia all'apprendimento profondo? Sistemi cellulari2(1), 12-14.
  17. https://ai.googleblog.com/2018/05/deep-learning-for-electronic-health.html
  18. Rajkomar et al., (2018) "Apprendimento profondo scalabile e accurato con le cartelle cliniche elettroniche", npj Medicina Digitale, 1(1)

Kolabtree helps businesses worldwide hire freelance scientists and industry experts on demand. Our freelancers have helped companies publish research papers, develop products, analyze data, and more. It only takes a minute to tell us what you need done and get quotes from experts for free.


Unlock Corporate Benefits

• Secure Payment Assistance
• Onboarding Support
• Dedicated Account Manager

Sign up with your professional email to avail special advances offered against purchase orders, seamless multi-channel payments, and extended support for agreements.


Condividi.

L'autore

Il dottor Ragothaman Yennamalli ha completato il suo dottorato di ricerca in biologia computazionale e bioinformatica nel 2008 presso la Jawaharlal Nehru University di Nuova Delhi. Ha condotto ricerche post-dottorato presso la Iowa State University (2009-2011), l'Università del Wisconsin-Madison (2011-2012) e la Rice University (2012-2014). Attualmente è professore assistente presso la Jaypee University of Information Technology, Waknaghat, Himachal Pradesh, India.

Lascia una risposta