Docking and Machine Learning approaches to explore new scaffolds for molecules of therapeutic interest - Bio-informatique (CBIO)
Thèse Année : 2024

Docking and Machine Learning approaches to explore new scaffolds for molecules of therapeutic interest

Approches de docking et de Machine Learning pour l'exploration de nouveaux « scaffolds » lors de la recherche de molécules d'intérêt thérapeutique

Philippe Pinel
  • Fonction : Auteur
  • PersonId : 1421556
  • IdRef : 280591004

Résumé

The challenges of drug discovery from hit identification to clinical development sometimes involves addressing scaffold hopping issues, in order to optimise molecular biological activity or ADME properties, improve selectivity or mitigate toxicology concerns of a drug candidate.They consist in identifying active molecules of similar binding modes but of different chemical structures to that of known active molecules. Large-step scaffold hopping, which corresponds to the highest degree of structural dissimilarity with the original hit, cannot be easily solved without the aid of computational methods. Docking is usually viewed as the method of choice for identification of such isofunctional molecules. However, the structure of the protein may not be suitable for docking because of a low resolution, or may even be unknown. In such cases, ligand-based approaches offer promise but are often inadequate to handle large-step scaffold hopping, because they are based on molecular descriptors that were not specifically developed for it. Solving those problems boils down to the identification of molecular descriptors corresponding to an embedding of the chemical space in which two molecules that are examples of large-step scaffold hopping cases are similar (i.e. close), although they are dissimilar (i.e. far) in the space embedded by molecular descriptors based principally on the chemical structure. To evaluate molecular descriptors to solve this particular challenging task, we built a high quality dataset of scaffold hopping examples comprising pairs of active molecules and including a variety of protein targets. We then proposed a strategy to evaluate the relevance of molecular descriptors to that problem, corresponding to real-life applications where one active molecule is known, and the second active is searched among a set of decoys chosen in a way to avoid statistical bias. We assessed how limited classical 2D and 3D descriptors are at solving these problems. Therefore, we introduced the Interaction Fingerprints Profile (IFPP), a molecular representation that captures molecules' binding modes based on docking experiments against a panel of diverse high-quality protein structures. Evaluation on the benchmark demonstrated its interest for identifying isofunctional molecules. Nevertheless, its computation is expensive, which limits its scalability for screening very large molecular libraries. We proposed to overcome this limitation by leveraging Metric Learning approaches, allowing fast estimation of molecules IFPP similarities, thus providing an efficient pre-screening strategy that is applicable to very large molecular libraries. Overall, our results suggest that IFPP provides an interesting and complementary tool alongside existing methods, in order to address challenging scaffold hopping problems effectively in drug discovery.
La découverte de médicaments, de l'identification de candidats jusqu'au développement clinique, implique parfois de résoudre des problèmes de 'scaffold hopping', dans le but d'optimiser l'activité biologique, la sélectivité, les propriétés ADME, ou de réduire les préoccupations toxicologiques des molécules. Ils consistent à identifier des molécules actives dont les modes de liaison sont similaires mais dont les structures chimiques sont différentes de celles des actifs connus.Le 'large-step scaffold hopping', qui correspond au degré le plus élevé de différence structurelle avec la molécule initiale, nécessite l'aide de méthodes calculatoires. Le docking est considéré comme la méthode de choix pour l'identification de telles molécules isofonctionnelles. Cependant, la structure de la protéine peut ne pas être adaptée au docking en raison d'une faible résolution, voire être inconnue. Dans de tels cas, les approches 'ligand-based' sont prometteuses mais souvent insuffisantes car basées sur des descripteurs moléculaires n'ayant pas été spécifiquement développés pour le 'large-step scaffold hopping'. La résolution de ces problèmes se résume à l'identification de descripteurs correspondant à une représentation de l'espace chimique dans laquelle deux molécules qui sont des cas de 'scaffold hopping' sont similaires, bien qu'elles soient dissemblables dans l'espace représenté par les descripteurs basés principalement sur la structure chimique. Afin d'évaluer la capacité des descripteurs à les résoudre, nous avons constitué un ensemble de cas de 'scaffold hopping' de haute qualité comprenant des paires de molécules actives pour une variété de protéines. Nous avons ensuite proposé une stratégie pour évaluer la pertinence des descripteurs pour résoudre ces problèmes, correspondant à des cas réels où une molécule active est connue, et la seconde active est recherchée parmi un ensemble de molécules leurres choisies de manière à éviter les biais statistiques. Nous avons ainsi illustré les limites des descripteurs classiques 2D et 3D. Par conséquent, nous proposons l'Interaction Fingerprints Profile (IFPP), une représentation moléculaire qui capture les modes de liaison des molécules via des dockings sur un panel de protéines diverses. L'évaluation de cette représentation sur le benchmark démontre son intérêt pour l'identification de molécules isofonctionnelles. Cependant, son calcul coûteux limite sa mise à l'échelle pour le criblage de bibliothèques moléculaires très larges. Nous avons remedié à cela en tirant parti du Metric Learning, qui permet une estimation rapide des similarités des IFPP des molécules, fournissant ainsi une stratégie de pré-criblage efficace applicable à de larges bibliothèques. Nos résultats suggèrent que l'IFPP est un outil intéressant et complémentaire aux méthodes existantes afin de résoudre le 'scaffold hopping'.
Fichier principal
Vignette du fichier
2024UPSLM015_archivage.pdf (21.91 Mo) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-04719438 , version 1 (03-10-2024)

Identifiants

  • HAL Id : tel-04719438 , version 1

Citer

Philippe Pinel. Docking and Machine Learning approaches to explore new scaffolds for molecules of therapeutic interest. Bioinformatics [q-bio.QM]. Université Paris sciences et lettres, 2024. English. ⟨NNT : 2024UPSLM015⟩. ⟨tel-04719438⟩
38 Consultations
6 Téléchargements

Partager

More