Biologie computationnelle évolue rapidement avec l'avènement des nouvelles technologies, notamment dans la manière dont nous collectons, analysons et visualisons les données. Le Dr. Ragothaman Yennmalli, une Kolabtree freelance et scientifique, examine quatre avancées prometteuses.
Dans le prolongement de la poste d'introduction précédent, here I will highlight some of the recent trends or recent advances in the biological sciences that are transforming computational biology. These advances rely heavily on computational tools and methods — big analyse des données, multiscale modelling, etc. Some of them are listed below.
1. Le Big Data
This is a well known term in computer science and has been picked by biologists only recently. Thanks to the next generation sequencing techniques, the sequence of a genome can be obtained in relatively shorter time. For example, the relevance of generating data quickly is magnified when working with metagenomic data or a microbiome. How can one manage the data? What about storage for long term? What are the tools for analyzing such massive data? These questions arise and they do have answers. As mentioned this is a recent trend in biology but not in computer science or experimental physiqueoù le traitement et l'analyse des données volumineuses sont des tâches courantes.
One particular instance where recherche is happening is in the file formats of biological big data. In the case of protein structure file format, the current standard is the .pdb format, a column dependent format that is parseable and both human and machine readable. However, this format fails when describing mega structures, such as the ribosome or full viral capsids. Hence, a new format has been proposed called the .pdbx format that overcomes the previous format’s limitations. There is also another format called MMTF format that spees up the loading time for structures with more then 20 million atoms within seconds.
Autres lectures sur le big data en informatique biologie structurelle:
http://science.sciencemag.org/content/355/6322/248
2. Techniques Cryo-EM et XFEL
Ces deux méthodes ne sont pas nouvelles, en tant que telles. Toutefois, la technologie actuelle et les progrès réalisés dans ces deux domaines repoussent les limites de l'analyse de la structure biomoléculaire. Cryo-EM est une technique permettant de capturer la structure tridimensionnelle de la biomolécule à l'aide d'un microscope électronique à haute résolution. Dans l'un des laboratoires pionniers du NIH, une structure de 2,5Å a été résolue. Cette résolution est habituellement obtenue avec la structure cristalline des protéines, ce qui implique au moins 1 à 2 mois de temps pour normaliser le cristal optimal à photographier sous le faisceau de rayons X.
In contrast, a recent technique that is revolutionizing biologie structurelle est XFEL qui consiste à envoyer des faisceaux de rayons X de haute intensité sur des microcristaux de protéines. En raison du rayonnement élevé, les microcristaux sont littéralement brûlés pour obtenir les données. Des dizaines de milliers de microcristaux sont nécessaires pour obtenir des données d'une couverture décente. Chaque image capturée à partir d'un microcristal doit être analysée avec les autres pour obtenir la structure 3D de la biomolécule.
Such techniques depend heavily on automated software that use image processing algorithms and to some extent apprentissage machine approaches to identify the signal from the surrounding noise. This est le big data, car la diversité et la vitesse à laquelle les informations sont acquises sont astronomiques.
3. Modélisation multi-échelle
Contrairement à la modélisation d'une structure biomoléculaire unique et à l'extrapolation à un système plus complexe, la modélisation multi-échelle implique plus de 200 000 atomes et la dynamique obtenue révèle des interactions à long terme et un comportement complexe des multiples composants (homogènes ou hétérogènes). Les données générées par de telles expériences sont massives en raison du nombre de points de données obtenus, mais aussi en raison de l'exécution de plusieurs cycles pour obtenir une signification statistique.
Un exemple d'utilisation de la modélisation multi-échelle est la compréhension de la dynamique du cellulosome, une structure bactérienne complexe composée de protéines hétérogènes et d'enzymes qui se fixent à la cellulose. Les cellulosomes sont importants sur le plan industriel dans le domaine des biocarburants, notamment pour la production de bioéthanol.
Pour en savoir plus : http://www.ks.uiuc.edu/Research/biofuels/
4. Séquençage de cellules uniques
Au lieu d'examiner plusieurs cellules, la dernière technique consiste à isoler chaque cellule individuelle, à en extraire l'ARN et à les séquencer. Cette technique récente est appelée séquençage de l'ARN d'une seule cellule ou scRNA-seq. Dans cet article de Nature, discutant de la méthode et de ses avantages, ils mentionnent que
Il est beaucoup plus difficile de manipuler des cellules individuelles que de grandes populations, et comme chaque cellule ne produit qu'une quantité infime d'ARN, il n'y a pas de place pour l'erreur. Un autre problème est l'analyse des énormes quantités de données qui en résultent, notamment parce que les outils utilisés peuvent être peu intuitifs.
Une excellente revue du flux de travail et des outils pour scRNA-seq est donnée ici : https://doi.org/10.3389/fgene.2016.00163
Besoin d'aide pour le conseil de Biologiste informaticien? Engagez un freelance Biologie computationnelle expert sur Kolabtree. Il est gratuit de publier votre projet et d'obtenir des devis.
Vous souhaitez consulter le Dr. Yennamalli sur un projet ? Contactez-le sur Kolabtree. ici.
Experts connexes :
Embaucher un bioinformaticien Embaucher un biologiste moléculaire Engager un biostatisticien