Development of computational methods for ultra-large virtual screens

Abstract: The virtual screening of the gigantic and rapidly growing available chemical space demands effective and innovative methods that can address the shortcomings of structure-based docking (i.e. computationally expensive, longer processing time, and higher-false positive rate) and ligand-based methods (i.e. limited chemical diversity). Therefore, this thesis aims at the development of computational methods to efficiently explore an ultra-large fraction (﹥109 molecules) of the synthesizable chemical space.
To achieve the aim, a novel lightweight deep learning framework 3DChemNet was developed for a rapid and efficient screening of ultra-large libraries of compounds. For the design and implementation of the deep neural networks, the alignment-free, spatial distribution of potential pharmacophoric features of small-molecules seeded in their respective three-dimensional conformational space were utilized. The overall implementation, which applies a custom binning strategy to a lightweight, highly optimized convolutional neural network architecture, allows the effective incorporation of the molecular characteristics into a fast and efficient virtual screen (~100 million/day/CPU). The performance of the proposed framework was tested on several curated as well as publicly-available unbiased benchmarking datasets. Further, to demonstrate the actual application of 3DChemNet, a synthetic-library of 1.37 billion compounds was screened which led to the identification of newer structurally diverse inhibitors of an epigenetic protein, bromodomain-containing protein 9 (in vitro IC50 ranged from ~1 µM to 10 µM).
Further, in this thesis, other novel applications of the optimized neural network architecture of 3DChemNet were explored. In one work, the DeepAlloPredGPCR, a deep learning-based predictor of G-protein-coupled receptors (GPCRs) allosteric modulators were developed for 58 targets. In another work, TCMSynNet for the discovery of synthetic multitarget-directed ligands was developed. TCMSynNet utilizes computational network pharmacology (CNP) and deep learning to analyze ‘multi-compound, multi-target’ relationships of polyherbal formulae used in traditional Chinese medicine. In another work, the CNP approach utilized in the development of TCMSynNet was modified to handle the negative dataset obtained during the construction of the compound-target network. Further, the in vitro enzymatic assays were performed for two targets viz. AKT1 and BCL2. Additional experimental validations of the developed algorithms/models presented in this thesis are currently also underway
Abstract: Das virtuelle Testen der Moleküle des verfügbaren und rasant anwachsenden gigantischen chemischen Raums erfordert effiziente und innovative Methoden, die die Unzulänglichkeiten von strukturbasiertem Docking (z.B. rechenintensiv, lange Bearbeitungszeiten und hohe Falsch-Positiv-Rate) und ligandenbasierten Methoden (z.B. begrenzte chemische Diversität) beheben können. Daher zielt diese Arbeit darauf ab, eine rechnergestützte Methode zu entwickeln, um einen enorm großen Anteil (﹥109 Moleküle) des synthetisierbaren chemischen Raums zu untersuchen.
Um dieses Ziel zu erreichen, wurde ein neuartiges, Deep-Learning-Framework 3DChemNet für ein schnelles und effizientes Screening von sehr großen Substanzbibliotheken entwickelt. Für das Design und die Implementierung der neuronalen Netze (Deep-Learning-Networks) wurde eine alinierungsfreie, räumliche Verteilung potenzieller Pharmakophormerkmalen von Kleinmolekülen in ihrem jeweiligen dreidimensionalen Konformationsraum genutzt. Die gesamte Implementierung, die eine benutzerdefinierte Anpassung und eine Optimierung der Faltung der neuronalen Netzwerkarchitektur beinhaltet, ermöglicht die effiziente Untersuchung der molekularen Merkmale in einer schnellen und effizienten Art und Weise (~100 Millionen Moleküle/Tag/CPU). Die Leistung des Netzwerks wurde an mehreren geprüften, öffentlich zugänglichen und repräsentativen Test-Datensätzen überprüft. Um den Realeinsatz von 3DChemNet zu prüfen, wurde eine Bibliothek mit 1,37 Milliarden synthetischen Verbindungen gescreent, was zur Identifizierung neuer, strukturell diverser Inhibitoren eines epigenetischen Proteins, des Bromodomain-enthaltenden Proteins 9, führte (die in vitro IC50 reichten von ~1 µM bis 10 µM).
Darüber hinaus wurden in dieser Arbeit weitere neuartige Anwendungen der optimierten, einfach zu nutzenden neuronalen Netzwerkarchitektur von 3DChemNet erforscht. In einer Arbeit wurde DeepAlloPredGPCR, ein Deep Learning-basierter Prädiktor für allosterische Modulatoren von G-Protein-gekoppelten Rezeptoren (GPCRs) für 58 Zielproteine entwickelt. In einer anderen Arbeit wurde TCMSynNet für die Identifizierung von synthetischen Multitarget-Liganden entwickelt. TCMSynNet nutzt computergestützte Netzwerkpharmakologie (CNP) und Deep Learning, um die "Multi-Compound, Multi-Target"-Beziehungen von in der traditionellen chinesischen Medizin verwendeten Naturstoff-Rezepturen zu analysieren. In einer weiteren Arbeit wurde der CNP-Ansatz, der bei der Entwicklung von TCMSynNet verwendet wurde, modifiziert, um den negativen Datensatz einzubeziehen, der bei der Erstellung des Wirkstoff-Zielprotein-Netzwerks erhalten wurde. Außerdem wurden enzymatische in vitro Assays für zwei Zielproteine, nämlich AKT1 und BCL2, durchgeführt. Zusätzliche experimentelle Validierungen der entwickelten Algorithmen/Modelle, die in dieser Arbeit vorgestellt werden, befinden sich derzeit in Bearbeitung

Location
Deutsche Nationalbibliothek Frankfurt am Main
Extent
Online-Ressource
Language
Englisch
Notes
Universität Freiburg, Dissertation, 2021

Event
Veröffentlichung
(where)
Freiburg
(who)
Universität
(when)
2021
Creator

DOI
10.6094/UNIFR/218570
URN
urn:nbn:de:bsz:25-freidok-2185705
Rights
Open Access; Der Zugriff auf das Objekt ist unbeschränkt möglich.
Last update
25.03.2025, 1:41 PM CET

Data provider

This object is provided by:
Deutsche Nationalbibliothek. If you have any questions about the object, please contact the data provider.

Time of origin

  • 2021

Other Objects (12)