Hochschulschrift
In Silico Prediction of Modular Domain-Peptide Interactions
Zusammenfassung: Protein-protein interactions (PPIs) are one of the most essential cellular processes in eukaryotes that control many important biological activities, such as signal transduction, differentiation, growth, cell polarity, apoptosis etc. Many PPIs in cellular signaling are mediated by modular protein domains. Peptide recognition modules (PRMs) are an important subclass of modular protein domains that specifically recognize short linear peptides to facilitate their biological functions. Hence, it is important to understand the intriguing mechanisms by which hundreds of modular domains specifically bind to their target peptides in a complex cellular environment. In recent years, an unprecedented progress has been made in high-throughput technologies to describe the binding specificities of a number of modular protein domain families. Therefore, given the high binding specificity of PRMs, in silico prediction of their cognate partners is of great interest. In the first part of this thesis, we describe the main high-throughput technologies (microarray, phage display etc.) that are widely used for defining the binding specificity of PRMs. Currently, several computational methods have been published for the prediction of domain-peptide interactions. Here, we provide a comprehensive review on these methods and their applications. We also describe the major drawbacks (e.g., linearity problem, peptide alignment problem, data-imbalance problem etc.) of these existing tools that are successfully addressed in our study.In the second part of this thesis, we present three methods for predicting domain-peptide interactions mediated by three diverse PRM families (i.e., SH2, SH3, and PDZ domain). In order to circumvent the linearity problem, our methods use efficient kernel functions, which exploit higher-order dependencies between amino acid positions. For the prediction of SH2-peptide interactions, polynomial kernels are used to train the classifiers. In addition, we show how to handle the data-imbalance problem by using an efficient semi-supervised technique. For the prediction of SH3-peptide interactions, graph kernels are used for training the classifiers. Graph kernel feature representation allows us to include the physico-chemical properties of each amino acid in the peptides, which increases the generalization capacity of the classifier. By using this kernel function, we were able to eliminate the need of an initial peptide alignment, since the alignment of proline-rich peptides targeted by SH3 domains is a hard task and an error-prone alignment can severely affect the predictive performance of the classifier. Moreover, we developed a generative approach for refining the confidence negative data. In the case of PDZ-peptide interactions, we cluster hundreds of PDZ domains from different organisms, i.e., human, mouse, fly, and worm, based on their binding specificity, and build a single comprehensive model for a set of multiple PDZ domains. In this way, we show that the domain coverage can be increased by using an accurate clustering technique. For training the classifier, a Gaussian kernel function is used. Similar to SH2-peptide interactions, a semi-supervised technique was applied to generate high-confidence negative data. In the third part of this thesis, we describe the applications and performance evaluations of our methods. We compared our methods with several other existing tools and achieved a much higher performance, which was measured by sensitivity, specificity, precision, AUC PR, and AUC ROC. Our methods were further evaluated on various experimentally verified datasets and as a predictive result, they outperformed the state-of-the-art approaches. To uncover the novel and biologically relevant interactions, we performed a genome-wide prediction. Furthermore, a term-centric enrichment analysis has been performed to unveil the novel functionalities of the predicted interactions. In the last part of this thesis, we introduce a new and efficient web server, which contains three tools (i.e., SH2PepInt, SH3PepInt, and PDZPepInt), for the prediction of modular domain-peptide interactions. Currently, we offer 51 and 69 single domain models for SH2 and SH3 domains, respectively, and 43 multiple domain models, which cover 227 domains, for PDZ domains across several organisms. In summary, this thesis presents machine learning methods for predicting the binding peptides of three diverse PRM families where the training data was derived from various high-throughput experiments. Most importantly, this thesis addresses the major computational challenges in the field of modular domain-peptide interactions. We offer the largest set of models to date for the prediction of modular domain mediated interactions
Zusammenfassung: Protein-Protein-Interaktionen (PPIs) zählen mit zu den wesentlichen Prozessen in Eukaryoten, die viele wichtige biologische Vorgänge (wie Signaltransduktion, Differenzierung, Wachstum, Zellpolarität, Apoptose usw.) kontrollieren. Viele PPIs in der Zellkommunikation werden durch modulare Proteindomänen vermittelt. Peptiderkennungsmodule (PRMs) sind eine wichtige Unterklasse der modularen Proteindomänen, die spezifisch kurze lineare Peptide erkennen, um ihre biologischen Funktionen zu ermöglichen. Demzufolge ist es wichtig, die faszinierenden Mechanismen zu verstehen, durch die hunderte modulare Domänen in einer komplexen zellulären Umgebung spezifisch an ihre Zielpeptide binden. In den vergangenen Jahren wurde ein noch nie da gewesener Fortschritt in Hochdurchsatz-Technologien gemacht, um die Bindungsspezifität einer Reihe von Familien modularer Proteindomänen zu beschreiben. Aus diesem Grund sind wegen der hohen Bindungsspezifität von PRMs in silico Vorhersagen ihrer spezifischen Partner von großem Interesse.Im ersten Teil dieser Arbeit beschreiben wir die wichtigsten Hochdurchsatz-Technologien (Microarray, Phagen-Display usw.), die weithin verwendet werden, um die Bindungsspezifität von PRMs zu bestimmen. Gegenwärtig wurden etliche computergestützte Methoden für die Vorhersage von Domäne-Peptid-Interaktionen veröffentlicht. Wir stellen einen umfassenden Überblick über diese Methoden und ihre Anwendungen bereit. Wir beschreiben auch die bedeutendsten Nachteile (zum Beispiel Linearitäts-Problem, Peptid-Alignment-Problem, Daten-Ungleichgewichts-Problem usw.) dieser bestehenden Methoden, die wir in unserer Studie erfolgreich angehen werden.Im zweiten Teil dieser Arbeit stellen wir drei Methoden zur Vorhersage von Domäne-Peptid-Interaktionen dar, die durch drei unterschiedliche PRM-Familien (d.h. SH2-, SH3- und PDZ-Domänen) vermittelt werden. Um das Linearitäts-Problem zu umgehen, verwenden unsere Methoden effiziente Kernel-Funktionen, die Abhängigkeiten höherer Ordnung zwischen Positionen einer Aminosäure ausnutzen. Für die Vorhersage von SH2-Peptid-Interaktionen werden polynomielle Kernel verwendet, um die Klassifikatoren zu trainieren. Zusätzlich zeigen wir, wie das Daten-Ungleichgewichts-Problem gehandhabt werden kann, indem ein effizientes semi-überwachtes Verfahren angewendet wird. Bei der Vorhersage von SH3-Peptid-Interaktionen werden Graph-Kernel für das Training der Klassifikatoren verwendet. Die Merkmalsrepräsentation des Graph-Kernels erlaubt es uns physikalischchemische Eigenschaften jeder Aminosäure in den Peptiden einzubeziehen, was das Verallgemeinerungsvermögen des Klassifikators erhöht. Durch die Verwendung dieser Kernel-Funktion konnten wir die Erfordernis eines initialen Peptid-Alignments streichen. Dies ist besonders wichtig, da das Alignment von Prolin-reichen Peptiden, die ein Ziel von SH3-Domänen sind, eine schwierige Aufgabe darstellt und ein fehlerhaftes Alignment die Vorhersage-Güte des Klassifikators schwerwiegend in Mitleidenschaft ziehen kann. Darüber hinaus entwickelten wir einen generativen Ansatz, um die sicher negativen Daten zu verfeinern. Im Falle der PDZ-Peptid-Interaktionen gruppieren wir hunderte PDZ-Domänen unterschiedlicher Organismen, d.h. Mensch, Maus, Fliege und Wurm, basierend auf ihrer Bindungsspezifität und erstellen ein einziges umfassendes Modell für eine Reihe multipler PDZ-Domänen. Auf diese Weise zeigen wir, dass die Abdeckung der Domänen durch die Verwendung eines exakten Clusterbildungsansatzes erhöht werden kann. Um den Klassifikator zu trainieren, wird eine Gauß-Kernel-Funktion verwendet. Ähnlich wie bei SH2-Peptid-Interaktionen wurde ein semi-überwachter Ansatz eingesetzt, um die sicher negativen Daten zu generieren.Im dritten Teil der Arbeit beschreiben wir die Anwendungen und die Leistungsbewertung unserer Methoden. Wir haben unsere Methoden mit mehreren anderen existierenden Programmen verglichen und erreichten eine wesentlich höhere Leistungsfähigkeit, die durch Sensitivität, Spezifität, Genauigkeit, AUC PR und AUC ROC gemessen wurde. Unsere Methoden wurden darüber hinaus auf verschiedenen experimentell abgesicherten Datensätzen ausgewertet und als Vorhersage konnten sie dem Stand der Technik entsprechende Ansätze übertreffen. Um die neuartigen und biologisch relevanten Interaktionen aufzudecken, führten wir eine genomweite Vorhersage durch. Zusätzlich wurde eine "term-centric enrichment analysis" durchgeführt, um die neuartigen Funktionsweisen der vorhergesagten Interaktionen zu enthüllen. Im letzten Teil dieser Arbeit präsentieren wir einen neuen und effizienten Web-Server, der drei Tools (d.h. SH2PepInt, SH3PepInt und PDZPepInt) für die Vorhersage von modularen Domäne-Peptid-Interaktionen beinhaltet. Derzeit bieten wir 51 bzw. 69 einzelne Domänen-Modelle für SH2- und SH3-Domänen an, und 43 multiple Domänen-Modelle, die 227 Domänen umfassen, für PDZ-Domänen mehrerer Organismen.Zusammenfassend stellt diese Arbeit maschinelle Lernverfahren für die Vorhersage der gebundenen Peptide von drei unterschiedlichen PRM-Familien dar, wobei die Trainingsdaten von zahlreichen Hochdurchsatz-Experimenten stammten. Am Bedeutsamsten ist, dass sich diese Arbeit mit den großen rechnergestützten Herausforderungen im Bereich der modularen Domäne-Peptid-Interaktionen befasst. Wir bieten die bislang größte Menge an Modellen für die Vorhersage von Interaktionen, die durch modulare Domänen vermittelt werden
- Standort
-
Deutsche Nationalbibliothek Frankfurt am Main
- Umfang
-
Online-Ressource
- Sprache
-
Englisch
- Anmerkungen
-
Universität Freiburg, Dissertation, 2015
- Klassifikation
-
Biowissenschaften, Biologie
- Ereignis
-
Veröffentlichung
- (wo)
-
Freiburg
- (wer)
-
Universität
- (wann)
-
2015
- Urheber
- Beteiligte Personen und Organisationen
- DOI
-
10.6094/UNIFR/10177
- URN
-
urn:nbn:de:bsz:25-freidok-101770
- Rechteinformation
-
Der Zugriff auf das Objekt ist unbeschränkt möglich.
- Letzte Aktualisierung
-
14.08.2025, 10:46 MESZ
Datenpartner
Deutsche Nationalbibliothek. Bei Fragen zum Objekt wenden Sie sich bitte an den Datenpartner.
Objekttyp
- Hochschulschrift
Beteiligte
- Kundu, Kousik
- Backofen, Rolf
- Universität
Entstanden
- 2015