Auteurs

Xavier Lapointe (1), Sébastien Leblanc (1), Marie A. Brunet (1, 2)
(1) Service de Génétique Médicale, Département de Pédiatrie, Université de Sherbrooke; (2) Centre de Recherche du Centre hospitalier universitaire de Sherbrooke (CRCHUS)

Résumé

Autrefois considérées comme de simples copies défectueuses de gènes fonctionnels, les pseudogènes ont récemment vu leur potentiel codant réévalué par plusieurs études. L’annotation erronée des pseudogènes a un lourd impact sur tous les domaines de recherche en biologie. Puisque jugés non fonctionnels, aucune séquence codante (CDS) n’est annotée, et de ce fait, les pseudogènes sont fréquemment exclus des hypothèses et analyses fonctionnelles. Les CDS des pseudogènes sont alors « invisibles » dans la plupart des études. Par exemple, une protéine encodée par un pseudogène est non détectable par spectrométrie de masse (MS) puisqu’elle est absente des bases de données de référence. Certaines approches telles que la protéogénomique permettent la détection de CDS non annotées et ont mis en évidence le potentiel codant ignoré des pseudogènes. La base de données OpenProt utilise une telle approche, en prédisant toutes les CDS possibles de 30 codons et plus dans le transcriptome humain. Ceci permet une réanalyse inclusive de données de MS et de profilage ribosomique. OpenProt rapporte actuellement 30 959 CDS non annotées détectées par MS chez l’humain, dont 2055 issues de pseudogènes. OpenProt est une très vaste base de données, idéale pour des découvertes, mais non adaptée à la recherche clinique ou aux méthodes d’analyse classiques. L’amélioration de l’annotation des pseudogènes est primordiale pour comprendre notre génome. Nous avons donc utilisé les données d’OpenProt pour construire un modèle d’apprentissage supervisé permettant la prédiction du potentiel codant des pseudogènes.

Pour établir un jeu de données confiant sur lequel construire notre modèle, nous avons sélectionné des pseudogènes dont la nature codante a été établie par OpenProt, et des pseudogènes pour lesquels aucune CDS de plus de 30 codons n’est prédite. Sur 15 281 transcrits de pseudogènes dans la base de données Ensembl, 1717 possèdent au moins une CDS détectée expérimentalement lors de deux expériences indépendantes (i.e. pseudogènes codants), et 3448 transcrits n’ont aucune CDS prédite (i.e. pseudogènes non codants). Ces deux ensembles de transcrits constituent les jeux de données sur lesquels notre modèle est construit. Une analyse de composition sur les séquences des pseudogènes codants et non codants révèle des différences significatives. Nous avons identifié 15 paramètres de composition des pseudogènes et de leur protéine traduite avec des différences notables entre les pseudogènes codants et non codants (test d’indépendance du khi carré, seuil de khi2 > 220, correspondant à une p-value < 8.10-50). Nous construisons maintenant un classificateur basé sur une régression logistique avec ces 15 paramètres pour prédire le potentiel codant des pseudogènes humains. Le classificateur sera entrainé avec une validation croisée 5-fold et sa performance sera évaluée avec le score F1.

Actuellement, 10 116 transcrits avec au moins une CDS prédite par OpenProt se trouvent en dessous de notre seuil de détection minimal pour être inclus avec certitude dans notre ensemble de pseudogènes codants. Notre modèle permettra d’explorer davantage le potentiel codant de ces pseudogènes. Une évaluation adéquate du potentiel codant des pseudogènes est cruciale pour mieux comprendre notre génome, transcriptome et protéome. Ensembl rapporte actuellement 19 684 gènes et 15 257 pseudogènes. Nous avons besoin de réviser une définition antique des pseudogènes pour mieux comprendre la fonction biologique de près de la moitié de nos gènes.