Maschinelles Lernen has several applications in diverse fields, ranging from Gesundheitswesen to natural language processing. Dr. Ragothanam Yennamalli, a computational biologist and Kolabtree freelancer, examines the applications of AI and maschinelles Lernen in der Biologie.
Machine Learning and Künstliche Intelligenz — these technologies have stormed the world and have changed the way we work and live. Advances in these areas have led to many either praising it or decrying it. However, for a computational person like me, they are not new words. AI and ML, as they’re popularly called, have several applications and benefits across a wide range of industries. Most notably, they are revolutionizing the way biological research is performed, leading to new innovations across Gesundheitswesen und Biotechnologie.
Was ist maschinelles Lernen?
Maschinelles Lernen und Statistik are closely knit. The reason is that the methods used in most machine learning approaches have origins from statistics such as regression analysis. While there are many applications for machine learning methods, their applications to biological data since the last 30 years or so have been in gene prediction, functional annotation, systems biology, microarray Datenanalyse, pathway analysis, etc.
Patterns is what a machine tries to identify in a given data, using which it tries to identify a similar pattern in another set of data. The processes of machine learning are quite similar to predictive modelling and data mining. They search data to identify patterns and alter the action of program, accordingly.
Wir sind uns des maschinellen Lernens und der künstlichen Intelligenz durch Online-Einkaufstools bewusst, da einige Empfehlungen in Bezug auf unseren Einkauf vorgeschlagen werden. Dies geschieht, weil die Empfehlungsmaschinen mit maschinellem Lernen arbeiten. Maschinelles Lernen hat auch andere Anwendungen wie Spam-Filterung, Erkennung von Sicherheitsbedrohungen, Betrugserkennung und Personalisierung von Newsfeeds.
Das maschinelle Lernen wird im Wesentlichen in drei Kategorien eingeteilt: überwachtes Lernen, unbeaufsichtigtes Lernen und Verstärkungslernen.
Überwachtes Lernen: Supervised machine learning algorithms require external assistance. The external assistance is usually through a human expert who provides curated input for the desired output to predict accuracy in algorithm training. The expert or data scientist determines the features or patterns that the model would use. Once the training is completed, then it can be applied to test another data for the prediction and classification. It is supervised because the algorithm learns from the training data set akin to a teacher supervising the learning process of a student.
Das überwachte Lernen wird in zwei Kategorien unterteilt: Klassifizierung und Regression. Bei der Klassifizierung wird die Ausgangsvariable in Klassen wie "rot" oder "grün" oder "krank" oder "nicht krank" eingeteilt. Bei der Regression ist die Ausgangsvariable ein realer Wert wie z. B. "Dollar" oder "Gewicht".
Bei überwachten Klassifizierern wird also eine Trainingsmenge bereitgestellt, um die Maschine zu trainieren, und sie wird mit einer Testmenge bewertet. Bei diesen Klassifizierern kommt es vor allem darauf an, wie man eine Trainingsmenge zusammenstellt. In den meisten Fällen entscheidet eine qualitativ hochwertige Trainingsmenge über Erfolg oder Misserfolg des maschinellen Lernens. Man sollte auch die negativen Daten berücksichtigen, die als Teil des Trainingssatzes bereitgestellt werden. Manchmal ist es schwierig, einen guten negativen Datensatz zu finden.
For example, if I would want to develop/train a machine to predict if two proteins interact (Protein-Protein interactions or PPI) or not; I would require a positive set of protein sequences/structures that have been proven to interact physically (such as X-ray crystallography, NMR data) and I would require a negative set of protein sequences/structures that are known to work without interacting with. a partner. In this case, the negative set is relatively large in comparison to the positive set, since the data of known PPI is significantly less as compared to the proteome of an organism. Thus, critically analyzed data is needed and this takes time.
Unüberwachtes Lernen: Bei unüberwachten Lernalgorithmen ist keine externe Unterstützung erforderlich. Das Computerprogramm sucht automatisch nach den Merkmalen oder Mustern in den Daten und gruppiert sie in Clustern. Wenn wir neue Daten für die Vorhersage eingeben, verwendet es die zuvor erlernten Merkmale, um die Daten zu klassifizieren. Diese Methode ist im Zeitalter von Big Data sehr nützlich, da sie eine große Menge an Trainingsdaten erfordert. Sie wird als unüberwachtes Lernen bezeichnet, weil kein Lehrer oder keine Überwachung beteiligt ist.
Das unüberwachte Lernen wird in drei Klassen unterteilt: Clustering, hierarchisches Clustering und Gaußsches Mischungsmodell. Bei der Clustering-Methode findet man die Beziehung zwischen ähnlichen Daten heraus und gruppiert sie in Clustern. Beim hierarchischen Clustering werden die Daten auf der Grundlage von kleinen Clustern durch eine Ähnlichkeitsmessung gruppiert. Dann werden auf der Grundlage einiger ähnlicher Parameter erneut Sub-Cluster gruppiert. Beim Gauß'schen Mischungsmodell stellt jede Mischungskomponente einen eigenen Cluster dar.
Verstärkungslernen: Beim Verstärkungslernen wird die Entscheidung auf der Grundlage der durchgeführten Aktion getroffen, die zu einem positiveren Ergebnis führt. Der Lernende hat kein Wissen darüber, welche Aktion zu ergreifen ist, er kann nur entscheiden, indem er Aktionen durchführt und die Ergebnisse sieht. Dieses Lernen ist also von Versuch und Irrtum abhängig [5].
The most promising implementation of machine learning and artificial intelligence is in personalized medicine and in Präzisionsmedizin. In recent years, many startups have focused on this and have developed pipelines. It is worth waiting to see if these translate into commodities that benefit the common man in the long run.
Anwendungen des maschinellen Lernens in der Biologie
Identifizierung von Genkodierungsregionen
In the area of Genomik, next-generation sequencing has rapidly advanced the field by sequencing a genome in a short time. Thus, an active area machine learning is applied to identifying gene coding regions in a genome. Such gene prediction tools that involve machine learning would be more sensitive than typical homolog based sequence searches.
Strukturvorhersage
Unter proteomics, we touched upon PPI earlier. But, the use of machine learning in structure prediction has pushed the accuracy from 70% to more than 80%. The use of machine learning in text-mining is quite promising with using training sets to identify new or novel drug targets from multiple journal articles and searching secondary databases.
Neuronale Netze
Tiefes Lernen is a more recent subfield of machine learning that is the extension of neural network. In deep learning “deep” refers to the number of layers through which data is transformed. So, deep learning is similar to neural network with multi-layers. These multi-layers nodes try to mimic how the human brain thinks to solve the problems. Neural networks are already used by machine learning. Neural network-based machine learning algorithms needs refined or significant data from raw data sets to perform analysis. But increasing data of genome sequencing made it difficult to process meaningful information and then perform the analysis. Multi layers in neural network filter the information and communicate to each layer and permit to refine the output.
Deep-Learning-Algorithmen extrahieren Merkmale aus großen Datensätzen wie einer Gruppe von Bildern oder Genomen und entwickeln ein Modell auf der Grundlage der extrahierten Merkmale. Sobald das Modell entwickelt ist, können die Algorithmen das entwickelte Modell verwenden, um andere Datensätze zu analysieren. Teute nutzen Wissenschaftler Deep-Learning-Algorithmen zur Klassifizierung von Zellbildern, zur Genomanalyse, zur Arzneimittelentdeckung und um herauszufinden, wie Bild- und Genomdaten mit elektronischen Krankenakten verknüpft werden können. Heutzutage ist Deep Learning ein aktives Feld in der Computerbiologie. Deep Learning wird auf biologische Hochdurchsatzdaten angewandt und hilft dabei, hochdimensionale Datensätze besser zu verstehen. In der computergestützten Biologie wird Deep Learning in der regulatorischen Genomik für die Identifizierung regulatorischer Varianten, die Auswirkungen von Mutationen anhand von DNA-Sequenzen, die Analyse ganzer Zellen, Zellpopulationen und Gewebe eingesetzt [11].
KI im Gesundheitswesen
Machine learning and AI are being used extensively by hospitals and health service providers to improve patient satisfaction, deliver personalized treatments, make accurate predictions and enhance the quality of life. It is also being used to make klinische Studien more efficient and help speed up the process of drug discovery and delivery.
Um die Arbeit von Google zu zitieren, die KI in Gesundheitsdaten [17, 18]
Ärzte werden bereits mit Warnmeldungen und Anforderungen an ihre Aufmerksamkeit überflutet - könnten Modelle Ärzten bei langweiligen, administrativen Aufgaben helfen, damit sie sich besser auf den Patienten vor ihnen oder auf Patienten, die besondere Aufmerksamkeit benötigen, konzentrieren können? Können wir den Patienten helfen, eine qualitativ hochwertige Versorgung zu erhalten, unabhängig davon, wo sie diese in Anspruch nehmen?
Und aus der Sicht des Patienten
Wann werde ich nach Hause gehen können? Werde ich wieder gesund? Werde ich wieder ins Krankenhaus kommen müssen?
Werkzeuge für maschinelles Lernen in der Biologie
Zell-Profiler: Vor einigen Jahren wurde mit Software für die biologische Bildanalyse nur ein einzelner Parameter aus einer Gruppe von Bildern gemessen. Im Jahr 2005 veröffentlichte die Computerbiologin Anne Carpenter vom MIT und Harvard eine Software namens ZellProfiler für die Messung von quantitativen Einzelmerkmalen wie der Anzahl fluoreszierender Zellen im Mikroskopiebereich. Derzeit kann CellProfiler jedoch durch die Implementierung von Deep-Learning-Techniken Tausende von Merkmalen erzeugen.
DeepVariant: Die Anwendung von Deep Learning wird in Tools für die Auswertung von Genomdaten ausgiebig genutzt. Verily life science und Google entwickelten ein auf Deep Learning basierendes Tool namens DeepVariant das im Vergleich zu herkömmlichen Instrumenten eine gemeinsame Art von genetischer Variation genauer vorhersagt.
Atomwise: Ein weiterer Bereich ist die Arzneimittelforschung, zu der Deep Learning einen wichtigen Beitrag leistet. Ein in San Francisco ansässiges Biotech-Unternehmen namens Atomwise hat einen Algorithmus entwickelt, mit dem sich Moleküle in 3D-Pixel umwandeln lassen. Diese Darstellung hilft dabei, die 3D-Struktur von Proteinen und kleinen Molekülen mit atomarer Präzision zu erfassen. Anhand dieser Merkmale kann der Algorithmus dann kleine Moleküle vorhersagen, die möglicherweise mit einem bestimmten Protein interagieren [12].
Different types of deep learning methods exist such as deep neural network (DNN), recurrent neural network (RNN), convolution neural network (CNN), deep autoencoder (DA), deep Boltzman machine (DBM), deep belief network (DBN) and deep residual network (DRN) etc. In the field of biology some methods like, DNN, RNN, CNN, DA and DBM are most commonly used methods [13]. Translation of biological data to perform validation of Biomarker that reveal disease state is a key task in biomedicine. DNN plays significant role in the identification of potential biomarkers from genome and proteome data. Deep learning also play important role in drug discovery [14].
Das kürzlich entwickelte CNN-Rechenprogramm DeepCpG wurde zur Vorhersage von DNA-Methylierungszuständen in einzelnen Zellen verwendet. Bei der DNA-Methylierung werden Methylgruppen mit dem DNA-Molekül assoziiert und verändern die Funktionen des DNA-Moleküls, ohne Änderungen in der Sequenz zu verursachen. DeepCpG wird auch für die Vorhersage bekannter Motive verwendet, die für die Methylierungsvariabilität verantwortlich sind. Bei der Auswertung von fünf verschiedenen Arten von Methylierungsdaten hat DeepCpG im Vergleich zu anderen Methoden genauere Ergebnisse vorhergesagt. Die DNA-Methylierung ist einer der am häufigsten untersuchten epigenetischen Marker [15].
TensorFlow ist ein von Google-Forschern entwickeltes Deep Learning Framework. TensorFlow ist eine kürzlich entwickelte Software, die das DNN-Design und -Training beschleunigt. Es ist in mehreren Verbesserungen wie grafische Visualisierung und Zeitkomplikation implementiert. Die Hauptverbesserung von TensorFlow besteht darin, dass es mit unterstützenden Tools namens TensorBoard verfügbar ist, die für die Visualisierung des Trainingsfortschritts des Modells verwendet werden. Es kann die Visualisierung eines komplexen Modells ermöglichen [16].
Zusammenfassend lässt sich sagen, dass KI und maschinelles Lernen die Art und Weise verändern, wie Biologen Forschung betreiben, sie interpretieren und zur Lösung von Problemen anwenden. Da die Wissenschaft zunehmend interdisziplinär wird, ist es unvermeidlich, dass die Biologie weiterhin Anleihen beim maschinellen Lernen nehmen wird, oder besser noch, das maschinelle Lernen wird den Weg weisen.
Sie müssen einen Berater für maschinelles Lernen für ein Projekt? Lassen Sie sich von freiberuflichen Experten auf Kolabtree beraten. Es ist kostenlos, Ihr Projekt zu veröffentlichen und Angebote zu erhalten!
Danksagung: Der Autor dankt Herrn Arvind Yadav für die Unterstützung bei diesem Blogbeitrag.
Referenzen und weiterführende Literatur:
- http://www.bbc.com/news/technology-43127533
- https://www.wired.com/story/why-artificial-intelligence-researchers-should-be-more-paranoid/
- https://www.theverge.com/2018/2/20/17032228/ai-artificial-intelligence-threat-report-malicious-uses
- http://www.thehindu.com/opinion/lead/the-politics-of-ai/article22809400.ece?homepage=true
- https://www.economist.com/news/science-and-technology/21713828-silicon-valley-has-squidgy-worlds-biology-and-disease-its-sights-will
- Raina, C. K. (2016). Ein Überblick über Techniken des maschinellen Lernens. Internationale Zeitschrift über die neuesten und innovativsten Trends in der Datenverarbeitung und Kommunikation, 4(3), 395-399.
- Jordan, M. I., & Mitchell, T. M. (2015). Machine learning: Trends, Perspektiven und Aussichten. Wissenschaft, 349(6245), 255-260.
- Praveena, M., & Jaiganesh, V. (2017). A Literaturüberblick on supervised machine learning algorithms and boosting process. Internationale Zeitschrift für Computeranwendungen, 169(8), 32-35.
- Forsberg, F., & Alvarez Gonzalez, P. (2018). Unsupervised Machine Learning: An Investigation of Clustering Algorithms on a Small Dataset.
- Gosavi, A. (2009). Verstärkungslernen: A tutorial survey and recent advances. INFORMS-Journal über Datenverarbeitung, 21(2), 178-192.
- Angermüller, C., Pärnamaa, T., Parts, L., & Stegle, O. (2016). Deep Learning für die computergestützte Biologie. Molekulare Systembiologie, 12(7), 878.
- Webb, S. (2018). Deep Learning für die Biologie. Nature. 2018 554(7693):555-557.
- Mahmud, M., Kaiser, M. S., Hussain, A., & Vassanelli, S. (2018). Anwendungen von Deep Learning und Reinforcement Learning auf biologische Daten. IEEE-Transaktionen für neuronale Netze und lernende Systeme, 29(6), 2063-2079.
- Mamoshina, P., Vieira, A., Putin, E., & Zhavoronkov, A. (2016). Anwendungen von Deep Learning in der Biomedizin. Molekulare Pharmazie, 13(5), 1445-1454.
- Angermüller, C., Lee, H. J., Reik, W., & Stegle, O. (2017). DeepCpG: genaue Vorhersage von Einzelzell-DNA-Methylierungszuständen mit Deep Learning. Genombiologie, 18(1), 67.
- Rampasek, L., & Goldenberg, A. (2016). Tensorflow: Biology's gateway to deep learning?. Zellsysteme, 2(1), 12-14.
- https://ai.googleblog.com/2018/05/deep-learning-for-electronic-health.html
- Rajkomar et al., (2018) "Skalierbares und genaues Deep Learning mit elektronischen Gesundheitsdaten", npj Digitale Medizin, 1(1)