Las aplicaciones del aprendizaje automático en la biología

0

Aprendizaje automático has several applications in diverse fields, ranging from salud to natural language processing. Dr. Ragothanam Yennamalli, a computational biologist and Kolabtree freelancer, examines the applications of AI and aprendizaje automático en biología. 

Machine Learning and Inteligencia Artificial — these technologies have stormed the world and have changed the way we work and live. Advances in these areas have led to many either praising it or decrying it. However, for a computational person like me, they are not new words. AI and ML, as they’re popularly called, have several applications and benefits across a wide range of industries. Most notably, they are revolutionizing the way biological research is performed, leading to new innovations across salud y biotecnología.

¿Qué es el aprendizaje automático?

Aprendizaje automático y estadísticas are closely knit. The reason is that the methods used in most machine learning approaches have origins from statistics such as regression analysis. While there are many applications for machine learning methods, their applications to biological data since the last 30 years or so have been in gene prediction, functional annotation, systems biology, microarray análisis de datos, pathway analysis, etc.

Patterns is what a machine tries to identify in a given data, using which it tries to identify a similar pattern in another set of data. The processes of machine learning are quite similar to predictive modelling and data mining. They search data to identify patterns and alter the action of program, accordingly.

Conocemos el aprendizaje automático y la IA a través de las herramientas de compra online, ya que se sugieren algunas recomendaciones relacionadas con nuestra compra. Esto ocurre porque los motores de recomendación funcionan con aprendizaje automático. El aprendizaje automático también tiene otras aplicaciones, como el filtrado de spam, la detección de amenazas de seguridad, la detección de fraudes y la personalización de las noticias.

El aprendizaje automático se clasifica principalmente en tres tipos: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje de refuerzo.

Aprendizaje supervisado: Supervised machine learning algorithms require external assistance. The external assistance is usually through a human expert who provides curated input for the desired output to predict accuracy in algorithm training. The expert or data scientist determines the features or patterns that the model would use. Once the training is completed, then it can be applied to test another data for the prediction and classification. It is supervised because the algorithm learns from the training data set akin to a teacher supervising the learning process of a student.

Además, el aprendizaje supervisado se divide en dos categorías: clasificación y regresión. En la clasificación, la variable de salida se clasifica en clases como "rojo" o "verde" o "enfermedad" o "no enfermedad". En la regresión, la variable de salida es un valor real como "dólares" o "peso".

Así, en los clasificadores supervisados se proporciona un conjunto de entrenamiento para entrenar a la máquina y se evalúa con un conjunto de pruebas. Lo más importante en estos clasificadores es cómo se construye el conjunto de entrenamiento. En la mayoría de los casos, tener un conjunto de entrenamiento de alta calidad hace o rompe el aprendizaje de la máquina. También hay que tener en cuenta los datos negativos que se proporcionan como parte del conjunto de entrenamiento. A veces, resulta difícil identificar un buen conjunto de datos negativos.

For example, if I would want to develop/train a machine to predict if two proteins interact (Protein-Protein interactions or PPI) or not; I would require a positive set of protein sequences/structures that have been proven to interact physically (such as X-ray crystallography, NMR data) and I would require a negative set of protein sequences/structures that  are known to work without interacting with. a partner. In this case, the negative set is relatively large in comparison to the positive set, since the data of known PPI is significantly less as compared to the proteome of an organism. Thus, critically analyzed data is needed and this takes time.

Aprendizaje no supervisado: En los algoritmos de aprendizaje no supervisado no se necesita ayuda externa. El programa informático busca automáticamente las características o patrones de los datos y los agrupa en clusters. Cuando introducimos nuevos datos para la predicción, entonces utiliza las características aprendidas previamente para clasificar los datos. Este método es muy útil en la era del big data porque requiere una gran cantidad de datos de entrenamiento. Se denomina aprendizaje no supervisado porque no hay ningún maestro ni supervisión.

El aprendizaje no supervisado se clasifica a su vez en tres clases: clustering, clustering jerárquico y modelo de mezcla gaussiana. En el método de clustering, se descubre la relación entre tipos de datos similares y se agrupan en clusters. En el clustering jerárquico, los datos se agrupan en base a pequeños clusters mediante alguna medida de similitud. A continuación, basándose en algún parámetro similar, los subconglomerados se agrupan de nuevo. En el modelo de mezcla gaussiana, cada componente de la mezcla presenta un clúster único.

Aprendizaje por refuerzo: En el aprendizaje por refuerzo, la decisión se toma sobre la base de la acción realizada que da un resultado más positivo. El alumno no sabe qué acción tomar, sino que puede decidirlo realizando acciones y viendo los resultados. Por lo tanto, este aprendizaje depende de la prueba y el error [5].

The most promising implementation of machine learning and artificial intelligence is in personalized medicine and in medicina de precisión. In recent years, many startups have focused on this and have developed pipelines. It is worth waiting to see if these translate into commodities that benefit the common man in the long run.

Aplicaciones del aprendizaje automático en biología

Identificación de las regiones de codificación de los genes
In the area of genómica, next-generation sequencing has rapidly advanced the field by sequencing a genome in a short time. Thus, an active area machine learning is applied to identifying gene coding regions in a genome. Such gene prediction tools that involve machine learning would be more sensitive than typical homolog based sequence searches.

Predicción de la estructura
En proteomics, we touched upon PPI earlier. But, the use of machine learning in structure prediction has pushed the accuracy from 70% to more than 80%. The use of machine learning in text-mining is quite promising with using training sets to identify new or novel drug targets from multiple journal articles and searching secondary databases.

Redes neuronales
Aprendizaje profundo is a more recent subfield of machine learning that is the extension of neural network. In deep learning “deep” refers to the number of layers through which data is transformed. So, deep learning is similar to neural network with multi-layers. These multi-layers nodes try to mimic how the human brain thinks to solve the problems. Neural networks are already used by machine learning. Neural network-based machine learning algorithms needs refined or significant data from raw data sets to perform analysis. But increasing data of genome sequencing made it difficult to process meaningful information and then perform the analysis. Multi layers in neural network filter the information and communicate to each layer and permit to refine the output.

Los algoritmos de aprendizaje profundo extraen características de grandes conjuntos de datos, como un grupo de imágenes o genomas, y desarrollan un modelo sobre la base de las características extraídas. Una vez desarrollado el modelo, los algoritmos pueden utilizarlo para analizar otros conjuntos de datos. Toy en día, los científicos utilizan algoritmos de aprendizaje profundo para realizar la clasificación de imágenes celulares, el análisis del genoma, el descubrimiento de fármacos y también para averiguar cómo se vinculan los datos de las imágenes y del genoma con los registros médicos electrónicos. Hoy en día, el aprendizaje profundo es un campo activo en la biología computacional. El aprendizaje profundo se aplica a datos biológicos de alto rendimiento que ayudan a comprender mejor un conjunto de datos de alta dimensión. En la biología computacional, el aprendizaje profundo se utiliza en la genómica reguladora para la identificación de variantes reguladoras, el efecto de la mutación utilizando la secuencia de ADN, el análisis de células enteras, la población de células y tejidos [11].

La IA en la sanidad
Machine learning and AI are being used extensively by hospitals and health service providers to improve patient satisfaction, deliver personalized treatments, make accurate predictions and enhance the quality of life. It is also being used to make ensayos clínicos more efficient and help speed up the process of drug discovery and delivery.

LEER TAMBIÉN  Las principales conferencias sobre análisis sanitario a las que asistir en 2020

Citando el trabajo de Google que emplea La IA en los datos sanitarios [17, 18]

Los médicos ya están inundados de alertas y demandas de atención: ¿podrían los modelos ayudar a los médicos con las tediosas tareas administrativas para que puedan centrarse mejor en el paciente que tienen delante o en los que necesitan atención adicional? ¿Podemos ayudar a los pacientes a recibir una atención de alta calidad independientemente del lugar donde la busquen?

Y desde el punto de vista del paciente

¿Cuándo podré volver a casa? ¿Me mejoraré? ¿Tendré que volver al hospital?

Herramientas de aprendizaje automático utilizadas en biología

Perfil de la célula: Hace unos años, los programas informáticos para el análisis de imágenes biológicas sólo medían un único parámetro de un grupo de imágenes. En 2005, una bióloga computacional, Anne Carpenter, del MIT y Harvard, lanzó un software llamado CellProfiler para la medición de características individuales cuantitativas como el número de células fluorescentes en el campo de la microscopía. Pero, actualmente CellProfiler puede producir miles de características mediante la implementación de técnicas de aprendizaje profundo.

DeepVariant: La aplicación del aprendizaje profundo se utiliza ampliamente en herramientas para la minería de datos del genoma. Verily life science y Google desarrollaron una herramienta basada en el aprendizaje profundo llamada DeepVariant que predice un tipo común de variación genética con mayor precisión en comparación con las herramientas convencionales.

Atomwise: Otro campo es el del descubrimiento de fármacos en el que el aprendizaje profundo contribuye de forma significativa. Una empresa de biotecnología con sede en San Francisco llamada Atomwise ha desarrollado un algoritmo que ayuda a convertir las moléculas en píxeles 3D. Esta representación ayuda a dar cuenta de la estructura 3D de las proteínas y las pequeñas moléculas con precisión atómica. A continuación, utilizando estas características, el algoritmo puede predecir las pequeñas moléculas que posiblemente interactúen con una proteína determinada [12].

Different types of deep learning methods exist such as deep neural network (DNN), recurrent neural network (RNN), convolution neural network (CNN), deep autoencoder (DA), deep Boltzman machine (DBM), deep belief network (DBN) and deep residual network (DRN) etc. In the field of biology some methods like, DNN, RNN, CNN, DA and DBM are most commonly used methods [13]. Translation of biological data to perform validation of biomarcadores that reveal disease state is a key task in biomedicine. DNN plays significant role in the identification of potential biomarkers from genome and proteome data. Deep learning also play important role in drug discovery [14].

La CNN ha utilizado la herramienta computacional desarrollada recientemente DeepCpG para predecir los estados de metilación del ADN en células individuales. En la metilación del ADN, los grupos metilo se asocian a la molécula de ADN y alteran las funciones de la molécula de ADN sin causar ningún cambio en la secuencia. DeepCpG también se utiliza para la predicción de motivos conocidos que son responsables de la variabilidad de la metilación. DeepCpG predijo un resultado más preciso en comparación con otros métodos cuando se evaluó utilizando cinco tipos diferentes de datos de metilación. La metilación del ADN es un marcador epigenético ampliamente estudiado [15].

TensorFlow es un marco de aprendizaje profundo desarrollado por investigadores de Google. TensorFlow es un software desarrollado recientemente que acelera el diseño y el entrenamiento de las DNN. Se implementa en varias mejoras como la visualización gráfica y la complicación de tiempo. La principal mejora de TensorFlow es que está disponible con herramientas de apoyo llamadas TensorBoard que se utilizan para visualizar el progreso del entrenamiento del modelo. Puede proporcionar la visualización de un modelo complejo [16].

En conclusión, la IA y el aprendizaje automático están cambiando la forma en que los biólogos llevan a cabo la investigación, la interpretan y la aplican para resolver problemas. A medida que la ciencia se vuelve cada vez más interdisciplinaria, es inevitable que la biología siga tomando prestado el aprendizaje automático, o mejor aún, que el aprendizaje automático marque el camino.

Necesidad de contratar a un consultor de aprendizaje automático para un proyecto? Consulta a los expertos freelance en Kolabtree. ¡Es gratis publicar tu proyecto y obtener presupuestos!

Agradecimiento: El autor desea agradecer al Sr. Arvind Yadav su ayuda en esta entrada del blog.

Referencias y lecturas adicionales:

  1. http://www.bbc.com/news/technology-43127533
  2. https://www.wired.com/story/why-artificial-intelligence-researchers-should-be-more-paranoid/
  3. https://www.theverge.com/2018/2/20/17032228/ai-artificial-intelligence-threat-report-malicious-uses
  4. http://www.thehindu.com/opinion/lead/the-politics-of-ai/article22809400.ece?homepage=true
  5. https://www.economist.com/news/science-and-technology/21713828-silicon-valley-has-squidgy-worlds-biology-and-disease-its-sights-will
  6. Raina, C. K. (2016). Una revisión de las técnicas de aprendizaje automático. Revista internacional sobre tendencias recientes e innovadoras en informática y comunicaciones4(3), 395-399.
  7. Jordan, M. I., & Mitchell, T. M. (2015). El aprendizaje automático: Tendencias, perspectivas y perspectivas. Ciencia349(6245), 255-260.
  8. Praveena, M., & Jaiganesh, V. (2017). A revisión de la literatura on supervised machine learning algorithms and boosting process. Revista Internacional de Aplicaciones Informáticas169(8), 32-35.
  9. Forsberg, F., & Álvarez González, P. (2018). Aprendizaje automático no supervisado: Una investigación de algoritmos de clustering en un pequeño conjunto de datos.
  10. Gosavi, A. (2009). Aprendizaje por refuerzo: Un estudio tutorial y avances recientes. INFORMS Journal on Computing21(2), 178-192.
  11. Angermueller, C., Pärnamaa, T., Parts, L., & Stegle, O. (2016). Aprendizaje profundo para la biología computacional. Biología de sistemas moleculares12(7), 878.
  12. Webb, S. (2018). Aprendizaje profundo para la biología. Nature. 2018 554(7693):555-557.
  13. Mahmud, M., Kaiser, M. S., Hussain, A., & Vassanelli, S. (2018). Aplicaciones del aprendizaje profundo y el aprendizaje de refuerzo a los datos biológicos. Transacciones del IEEE sobre redes neuronales y sistemas de aprendizaje29(6), 2063-2079.
  14. Mamoshina, P., Vieira, A., Putin, E., & Zhavoronkov, A. (2016). Aplicaciones del aprendizaje profundo en biomedicina. Farmacéutica molecular13(5), 1445-1454.
  15. Angermueller, C., Lee, H. J., Reik, W., & Stegle, O. (2017). DeepCpG: predicción precisa de los estados de metilación del ADN de una sola célula utilizando el aprendizaje profundo. Biología del genoma18(1), 67.
  16. Rampasek, L., & Goldenberg, A. (2016). Tensorflow: ¿La puerta de entrada de la biología al aprendizaje profundo? Sistemas celulares2(1), 12-14.
  17. https://ai.googleblog.com/2018/05/deep-learning-for-electronic-health.html
  18. Rajkomar et al., (2018) "Aprendizaje profundo escalable y preciso con registros sanitarios electrónicos".", npj Medicina Digital, 1(1)

Kolabtree helps businesses worldwide hire freelance scientists and industry experts on demand. Our freelancers have helped companies publish research papers, develop products, analyze data, and more. It only takes a minute to tell us what you need done and get quotes from experts for free.


Unlock Corporate Benefits

• Secure Payment Assistance
• Onboarding Support
• Dedicated Account Manager

Sign up with your professional email to avail special advances offered against purchase orders, seamless multi-channel payments, and extended support for agreements.


Comparte.

Sobre el autor

El Dr. Ragothaman Yennamalli se doctoró en Biología Computacional y Bioinformática en 2008 en la Universidad Jawaharlal Nehru de Nueva Delhi. Realizó una investigación posdoctoral en la Universidad Estatal de Iowa (2009-2011), la Universidad de Wisconsin-Madison (2011-2012) y la Universidad de Rice (2012-2014). Actualmente es profesor asistente en la Universidad Jaypee de Tecnología de la Información, Waknaghat, Himachal Pradesh, India.

Dejar una respuesta