Computational analysis and prediction of RNA-protein interactions
Abstract: This dissertation is about the computational analysis and prediction of RNA-protein interactions. Ribonucleic acids (RNAs) and proteins both are essential for the control of gene expression in our cells. Gene expression is the process by which a functional gene product, namely a protein or an RNA, is produced from a gene, starting from the gene region on the DNA with the transcription of an RNA. Once regarded primarily as a messenger to transmit the protein information, recent years have seen RNA moving further into the biomedical spotlight, thanks to its increasingly uncovered roles in regulating gene expression. In addition, RNA has showcased its therapeutic potential, as famously demonstrated by the groundbreaking success of RNA vaccines in the COVID-19 pandemic. However, RNAs rarely function on their own: In humans, more than 1,500 different RNA-binding proteins (RBPs) are involved in controlling the various stages of an RNA's life cycle, creating a highly complex regulatory interplay between RNAs and proteins. It is therefore of fundamental importance to study these RNA-protein interactions, in order to deepen our understanding of gene expression.
Over the last decade, CLIP-seq has become the dominant experimental method to identify the set of cellular RNA binding sites for an RBP of interest. However, analysing the resulting CLIP-seq data can be challenging, as there are many analysis steps and CLIP-seq protocol variants available, each requiring specific adaptations to the analysis workflow. Consequently, there is a need for analysis guidelines, providing easy access to tools, as well as the constant improvement of tools and workflows to increase the accuracy of the analysis results.
The first set of works included in this thesis (publications P1, P4, and P5) deals with these topics, by providing a review article on CLIP-seq data analysis, as well as two articles on how to further improve CLIP-seq data analysis. Publication P1 supplies readers with an overview of tools and protocols, as well as guidelines to conduct a successful analysis, drawing largely from our own experience with analysing CLIP-seq data. Publication P4 demonstrates the issues current binding site identification tools have with CLIP-seq data from RBPs that bind to processed RNAs, and that the integration of RNA processing information improves the resulting binding site quality. On top of this, publication P5 presents Peakhood, the first tool that utilizes RNA processing information in order to increase the quality of RBP binding sites identified from CLIP-seq data.
A natural drawback of experimental methods is that a target RNA needs to be sufficiently expressed in the observed cells for an RNA-protein interaction to be detected. Hence, since gene expression is a dynamic process that differs between cell types, time points, and conditions, a CLIP-seq experiment cannot recover the complete set of cellular RBP binding sites. This creates a demand for computational methods which can learn the binding properties of an RBP from existing CLIP-seq data, in order to predict RBP binding sites on any given target RNA. Besides interacting with proteins, RNAs can also interact with other RNAs, further increasing the amount of possible regulatory interactions between RNAs and proteins. In this regard, long non-coding RNAs (lncRNAs), a large class of non-protein-coding RNAs whose functions are still vastly unexplored, have become especially important, as it has been shown that they can engage in RNA-RNA interactions, whose regulatory mechanisms also include RNA-protein interactions. As such mechanistic studies are typically slow and expensive, computational tools that combine RNA-protein and RNA-RNA interaction predictions to infer potential mechanisms could be of great help, e.g., by screening a set of target RNAs and proteins and suggesting plausible mechanisms for experimental validation.
The second set of works included in this thesis (publications P2 and P3) thus deals with the computational prediction of RNA-protein interactions, RNA-RNA interactions and the functional mechanisms that can be inferred from these interactions. Publication P2 introduces MechRNA, the first tool to infer functional mechanisms of lncRNAs based on their predicted interactions with RBPs and other RNAs, as well as gene expression data. We demonstrated MechRNA's capability to identify formerly described lncRNA mechanisms and experimentally validated one prediction, underlining its value for functional lncRNA studies. Finally, publication P3 presents RNAProt, a flexible and performant RBP binding site prediction tool based on recurrent neural networks. Compared to other popular deep learning methods, RNAProt achieves state-of-the-art predictive performance, as well as superior runtime efficiency. In addition, it is more feature-rich than any other available method, including the support of user-defined predictive features. We further showed that its visualizations agree with known RBP binding preferences, and demonstrated that its additional predictive features can increase the specificity of predictions
Abstract: Diese Dissertation beschäftigt sich mit der computergestützten Analyse und Vorhersage von RNA-Protein-Interaktionen. Ribonukleinsäuren (RNAs) und Proteine sind essentielle Bestandteile der Genexpressionskontrolle in den Zellen unseres Körpers. Genexpression bezeichnet den Prozess der Herstellung eines funktionellen Genprodukts, welches ein Protein oder eine RNA sein kann, angefangen mit der Transkription einer RNA von der betreffenden Genregion auf der DNA. In den letzten Jahren hat sich unser ursprüngliches Bild der RNA als Überträger der Proteininformation erheblich erweitert: Diverse Forschungsarbeiten haben zahlreiche neue RNA-Funktionen bei der Regulierung der Genexpression offengelegt, wodurch sich der wissenschaftliche Fokus in der biomedizinischen Forschung weiter in Richtung RNA verschoben hat. Darüber hinaus hat der bahnbrechende Erfolg der RNA-Impfstoffe in der COVID-19 Pandemie auf beeindruckende Weise das therapeutische Potential von RNA aufgezeigt. RNAs führen ihre Funktionen jedoch in den seltensten Fällen alleine aus: Mehr als 1500 RNA-Bindeproteine (RBPs) sind im Menschen an der Kontrolle der verschiedenen Phasen des RNA-Lebenszyklus beteiligt, was zu einem hochkomplexen regulatorischen Zusammenspiel zwischen RNA und Proteinen führt. Es ist daher von grundlegender Bedeutung, diese RNA-Protein-Interaktionen zu untersuchen, um ein tieferes Verständnis der Genexpression zu erlangen.
Im Laufe des letzten Jahrzehnts hat sich CLIP-seq als experimentelle Methode zur Identifizierung der zellulären RNA-Bindestellen eines bestimmten RBPs durchgesetzt. Die Analyse der resultierenden CLIP-seq-Daten ist jedoch alles andere als trivial, da sie ein fundiertes Wissen über die zahlreichen Analyseschritte und die unterschiedlichen CLIP-seq-Protokolle voraussetzt. Es ist daher notwendig, dem Anwender Anleitungen und Programme für die einzelnen Analyseschritte und Protokollvarianten zur Verfügung zu stellen. Ebenso wichtig ist die kontinuerliche Verbesserung der Programme und Workflows, um die Qualität der Analyseergebnisse weiter zu erhöhen.
Die ersten drei in dieser Dissertation enthaltenen Publikationen (Publikationen P1, P4 und P5) behandeln diese Themen: Publikation P1 ist ein Übersichtsartikel zur Analyse von CLIP-seq-Daten, der die wichtigsten Analyseschritte, Protokolle und Programme beschreibt, mit dem Ziel, dem Leser eine erfolgreiche Datenanalyse zu ermöglichen. Die enthaltenen Anleitungen basieren dabei weitgehend auf unseren eigenen Erfahrungen mit der Analye von CLIP-seq-Daten. Publikation P4 stellt die Probleme aktueller Programme zur Identifizierung von Bindestellen dar, wenn die CLIP-seq-Daten von RBPs stammen die an prozessierte RNAs binden. Weiterhin zeigen wir, dass die Integration von Informationen zur RNA-Prozessierung die Qualität der resultierenden Bindestellen verbessert. Darauf aufbauend präsentieren wir in Publikation P5 Peakhood, das erste Programm welches Informationen zur RNA-Prozessierung benutzt um die Qualität der aus CLIP-seq-Daten ermittelten RBP-Bindestellen zu erhöhen.
Ein offensichtlicher Nachteil experimenteller Methoden ist, dass diese auf eine ausreichend hohe Expression der RNA angewiesen sind, um die sich darauf befindlichen RBP-Bindestellen detektieren zu können. Da die Genexpression dynamisch ist und deshalb unterschiedlich ausfällt zwischen verschiedenen Zelltypen, Zeitpunkten und Konditionen, kann ein CLIP-seq-Experiment folglich niemals den kompletten Satz an zellulären RBP-Bindestellen ermitteln. Dies führt zu einem Bedarf an computergestützten Methoden, welche die Bindeeigenschaften eines RBP aus existierenden CLIP-seq-Daten lernen können, um damit neue RBP-Bindestellen auf beliebigen RNAs vorherzusagen. Neben der Interaktion mit Proteinen können RNAs auch mit anderen RNAs interagieren, wodurch sich die Anzahl der möglichen regulatorischen Interaktionen zwischen RNAs und Proteinen nochmals deutlich erhöht. In diesem Zusammenhang sind vor allem lange nicht-kodierende RNAs (lncRNAs) zu nennen, eine große noch weitgehend unerforschte Klasse nicht-proteinkodierender RNAs, da gezeigt werden konnte, dass diese RNA-RNA-Interaktionen ausbilden können, deren regulatorische Mechanismen auch RNA-Protein-Interaktionen mit einbeziehen. Diese mechanistischen Studien sind allerdings mit einem erheblichen Zeit- und Kostenaufwand verbunden. Dementsprechend entsteht ein Bedarf an computergestützten Methoden zur Vorhersage potentieller Mechanismen anhand von vorausberechneten RNA-Protein- und RNA-RNA-Interaktionen. Diese dienen dann beispielsweise zur Vorauswahl plausibler Mechanismen, welche anschließend experimentell validiert werden können.
Die restlichen zwei in dieser Dissertation enthaltenen Publikationen (Publikationen P2 und P3) befassen sich deshalb mit der computergestützten Vorhersage von RNA-Protein-Interaktionen, RNA-RNA-Interaktionen, sowie den funktionellen Mechanismen, die sich aus diesen Interaktionen ableiten lassen. In Publikation P2 stellen wir MechRNA vor, das erste Programm zur Vorhersage funktioneller Mechanismen von lncRNAs, abgeleitet aus vorausberechneten Interaktionen der lncRNA mit RBPs und anderen RNAs sowie aus Genexpressionsdaten. Wir zeigen dass MechRNA in der Lage ist, bekannte lncRNA-Mechanismen zu identifizieren. Ebenso konnten wir eine Vorhersage erfolgreich experimentell validieren, was nochmals den Wert des Programms für funktionelle lncRNA-Studien unterstreicht. Schließlich präsentieren wir in Publikation P3 RNAProt, ein flexibles und leistungsfähiges Programm zur Vorhersage von RBP-Bindestellen, basierend auf rekurrenten neuronalen Netzen. Im Vergleich zu anderen populären Deep-Learning-Methoden bietet RNAProt sowohl eine überragende Vorhersageleistung als auch eine überlegene Laufzeiteffizienz. Darüber hinaus bietet das Programm mehr Funktionen als jede andere verfügbare Methode, einschließlich der Unterstützung benutzerdefinierter Vorhersage-Features. Zudem haben wir gezeigt, dass die in RNAProt enthaltenen Visualisierungen mit bekannten RBP-Bindepräferenzen übereinstimmen, und dass die zusätzlichen Vorhersage-Features von RNAProt die Spezifität der Vorhersagen weiter erhöhen können
- Location
-
Deutsche Nationalbibliothek Frankfurt am Main
- Extent
-
Online-Ressource
- Language
-
Englisch
- Notes
-
Universität Freiburg, Dissertation, 2022
- Keyword
-
RNS
Non-coding RNA
Bioinformatik
- Event
-
Veröffentlichung
- (where)
-
Freiburg
- (who)
-
Universität
- (when)
-
2022
- Creator
- DOI
-
10.6094/UNIFR/231999
- URN
-
urn:nbn:de:bsz:25-freidok-2319991
- Rights
-
Open Access; Der Zugriff auf das Objekt ist unbeschränkt möglich.
- Last update
-
25.03.2025, 1:46 PM CET
Data provider
Deutsche Nationalbibliothek. If you have any questions about the object, please contact the data provider.
Associated
Time of origin
- 2022