UCSC Genome Browser (Français)

La grande quantité de données sur les systèmes biologiques qui s’accumulent dans la littérature rend nécessaire la collecte et la digestion des informations à l’aide des outils de la bioinformatique. Le navigateur génomique de l’UCSC présente une collection diversifiée d’ensembles de données d’annotation (appelés « pistes » et présentés graphiquement), notamment des alignements d’ARNm, des cartographies d’éléments répétés de l’ADN, des prédictions de gènes, des données d’expression génique, des données d’association à des maladies (représentant les relations entre les gènes et les maladies) et des cartographies de puces à ADN disponibles dans le commerce (par exemple, Illumina et Agilent). Le paradigme de base de l’affichage est de montrer la séquence du génome dans la dimension horizontale, et de montrer des représentations graphiques de l’emplacement des ARNm, des prédictions de gènes, etc. Des blocs de couleur le long de l’axe des coordonnées indiquent les emplacements des alignements des différents types de données. La possibilité de montrer cette grande variété de types de données sur un seul axe de coordonnées fait du navigateur un outil pratique pour l’intégration verticale des données.

Pour trouver un gène ou une région génomique spécifique, l’utilisateur peut taper le nom du gène, une séquence d’ADN, un numéro d’accession pour un ARN, le nom d’une bande cytologique génomique (par ex, 20p13 pour la bande 13 sur le bras court du chr20) ou une position chromosomique (chr17:38,450,000-38,531,000 pour la région autour du gène BRCA1).

Présenter les données dans le format graphique permet au navigateur de présenter un accès par lien à des informations détaillées sur n’importe laquelle des annotations. La page des détails du gène de la piste UCSC Genes fournit un grand nombre de liens vers des informations plus spécifiques sur le gène dans de nombreuses autres ressources de données, telles que Online Mendelian Inheritance in Man (OMIM) et SwissProt.

Conçu pour la présentation de données complexes et volumineuses, le navigateur UCSC est optimisé pour la vitesse. En pré-alignant les 55 millions d’ARN de GenBank à chacun des 81 assemblages de génomes (beaucoup des 46 espèces ont plus d’un assemblage), le navigateur permet un accès instantané aux alignements de n’importe quel ARN à n’importe quelle espèce hébergée.

Produits génétiques multiples du gène FOXP2 (en haut) et conservation évolutive montrée dans l’alignement multiple (en bas)

La juxtaposition des nombreux types de données permet aux chercheurs d’afficher exactement la combinaison de données qui répondra à des questions spécifiques. Une fonctionnalité de sortie pdf/postscript permet d’exporter une image prête à l’emploi pour la publication dans des revues universitaires.

Une caractéristique unique et utile qui distingue le navigateur UCSC des autres navigateurs génomiques est la nature continuellement variable de l’affichage. Des séquences de toute taille peuvent être affichées, d’une seule base d’ADN jusqu’au chromosome entier (chr1 humain = 245 millions de bases, Mb) avec des pistes d’annotation complètes. Les chercheurs peuvent afficher un seul gène, un seul exon ou une bande chromosomique entière, montrant des dizaines ou des centaines de gènes et toute combinaison des nombreuses annotations. Une fonction pratique de glisser-déposer permet à l’utilisateur de choisir n’importe quelle région de l’image du génome et de l’agrandir pour occuper le plein écran.

Les chercheurs peuvent également utiliser le navigateur pour afficher leurs propres données via l’outil Custom Tracks. Cette fonctionnalité permet aux utilisateurs de télécharger un fichier de leurs propres données et de les visualiser dans le contexte de l’assemblage du génome de référence. Les utilisateurs peuvent également utiliser les données hébergées par l’UCSC, en créant des sous-ensembles de données de leur choix avec l’outil Table Browser (par exemple, uniquement les SNP qui modifient la séquence d’acides aminés d’une protéine) et afficher ce sous-ensemble spécifique de données dans le navigateur en tant que Custom Track.

Toute vue du navigateur créée par un utilisateur, y compris celles contenant des Custom Tracks, peut être partagée avec d’autres utilisateurs via l’outil Saved Sessions.

TracksEdit

Tracks du navigateur génomique UCSC

.

Sous l’image affichée du navigateur génomique UCSC se trouvent neuf catégories de pistes supplémentaires qui peuvent être sélectionnées et affichées à côté des données originales. Ces catégories sont les suivantes : cartographie et séquençage, gènes et prédictions de gènes, phénotype et littérature, ARNm et EST, expression, régulation, génomique comparative, variation et répétitions.

.

Catégories
Catégorie Description Exemples de piste
Mapping et séquençage permet de contrôler le style de séquençage affiché. Position de base. Alt Map, Gap
Gènes et prédictions de gènes Quels programmes pour prédire les gènes et quelles bases de données pour afficher les gènes connus de. GENCODE v24, Geneid Genes, Pfam dans UCSC Gene Phénotype et littérature Bases de données contenant des styles spécifiques de données de phénotype. Allèles OMIM, Cancer Gene Expr Super-track
Arnm et EST Accès aux ARNm et aux EST pour des recherches spécifiques à l’homme ou des recherches générales tous usages. Est humains, autres EST, autres ARNm
Expression Affichage des expressions uniques de séquences prédéterminées. Gène GTEx, Affy U133 Régulation Information pertinente pour la régulation des transcriptions provenant de différentes études. Paramètres de la super-piste de régulation ENCODE, ORegAnno
Génomique comparative Permet la comparaison de la séquence recherchée avec d’autres groupes d’animaux dont les génomes ont été séquencés. Conservation, Cons 7 Verts, Cons 30 Primates
Variation Comparaît la séquence recherchée avec des variations connues. SNP communs(150), Tous les SNP(146), SNP marqués(144)
Répétitions permet de suivre les différents types de séquences répétées dans la requête. RepeatMasker, Microsatellite, WM + SDust

Mapping and SequencingEdit

Ces pistes permettent à l’utilisateur de contrôler l’affichage des coordonnées génomiques, des séquences et des lacunes. Les chercheurs ont la possibilité de sélectionner les pistes qui représentent le mieux leur requête pour permettre l’affichage de données plus applicables en fonction du type et de la profondeur de la recherche effectuée. Les pistes de cartographie et de séquençage peuvent également afficher une piste basée sur le pourcentage pour montrer à un chercheur si un élément génétique particulier est plus répandu dans la zone spécifiée.

Gènes et prédictions de gènesEdit

Les pistes de gènes et de prédictions de gènes contrôlent l’affichage des gènes et de leurs parties subséquentes. Les différentes pistes permettent à l’utilisateur d’afficher les modèles de gènes, les régions codantes des protéines et l’ARN non codant ainsi que d’autres données liées aux gènes. De nombreuses pistes sont disponibles permettant aux chercheurs de comparer rapidement leur requête avec des ensembles de gènes présélectionnés afin de rechercher des corrélations entre des ensembles de gènes connus.

Phénotype et LiteratureEdit

Les pistes Phénotype et Literature traitent du phénotype directement lié aux gènes ainsi que du phénotype génétique. Les utilisations de ces pistes sont destinées principalement aux médecins et autres professionnels concernés par les troubles génétiques, aux chercheurs en génétique et aux étudiants avancés en sciences et en médecine. Un chercheur peut également afficher une piste qui montre les positions génomiques des variantes d’acides aminés naturelles et artificielles.

Arnm et ESTEdit

Ces pistes sont liées aux balises de séquences exprimées et aux ARN messagers. Les EST sont des séquences à lecture unique, généralement d’une longueur d’environ 500 bases, qui représentent habituellement des fragments de gènes transcrits. Les pistes ARNm permettent d’afficher les données d’alignement d’ARNm chez l’Homme, ainsi que chez d’autres espèces. Il existe également des pistes permettant la comparaison avec des régions d’EST qui présentent des signes d’épissage lorsqu’elles sont alignées avec le génome.

ExpressionEdit

Les pistes d’expression sont utilisées pour mettre en relation les données génétiques avec les zones de tissus dans lesquelles elles sont exprimées. Cela permet à un chercheur de découvrir si un gène ou une séquence particulière est lié à divers tissus du corps. Les pistes d’expression permettent également d’afficher des données consensuelles sur les tissus qui expriment la région d’interrogation.

RegulationEdit

Les pistes de régulation du navigateur génomique UCSC sont une catégorie de pistes qui contrôlent la représentation des régions promotrices et de contrôle au sein du génome. Un chercheur peut ajuster les pistes de régulation pour ajouter un graphique d’affichage au navigateur de génome. Ces affichages permettent d’obtenir plus de détails sur les régions régulatrices, les sites de liaison des facteurs de transcription, les sites de liaison de l’ARN, les variants régulateurs, les haplotypes et d’autres éléments régulateurs.

Edition de génomique comparative

Le navigateur de génome UCSC permet à l’utilisateur d’afficher différents types de données de conservation. L’utilisateur peut sélectionner différentes pistes, notamment les primates, les vertébrés, les mammifères entre autres, et voir comment la séquence de gènes qu’il a recherchée est conservée parmi d’autres espèces. Les alignements comparatifs donnent une vue graphique des relations évolutives entre les espèces. Cela en fait un outil utile tant pour le chercheur, qui peut visualiser les régions de conservation au sein d’un groupe d’espèces et faire des prédictions sur les éléments fonctionnels dans des régions d’ADN inconnues, que dans la salle de classe comme outil pour illustrer l’un des arguments les plus convaincants en faveur de l’évolution des espèces. La piste comparative à 44 voies sur l’assemblage humain montre clairement que plus on remonte dans le temps de l’évolution, moins il reste d’homologie de séquence, mais les régions du génome fonctionnellement importantes (par exemple, les exons et les éléments de contrôle, mais pas les introns typiquement) sont conservées beaucoup plus loin dans le temps de l’évolution.

Données de variationEdit

Plusieurs types de données de variation sont également affichés. Par exemple, l’intégralité du contenu de chaque version de la base de données dbSNP du NCBI est cartographiée sur les génomes humains, de souris et autres. Cela inclut les fruits du projet 1000 Génomes, dès qu’ils sont publiés dans dbSNP. D’autres types de données de variation incluent les données de variation du nombre de copies (CNV) et les fréquences d’allèles de la population humaine du projet HapMap.

Edition des répétitions

Les pistes de répétition du navigateur de génome permettent à l’utilisateur de voir une représentation visuelle des zones d’ADN avec des répétitions de faible complexité. Le fait de pouvoir visualiser les répétitions dans une séquence permet de faire des déductions rapides sur une requête de recherche dans le navigateur de génome. Un chercheur a la possibilité de voir rapidement que sa recherche spécifiée contient de grandes quantités de séquences répétées en un coup d’œil et d’ajuster sa recherche ou l’affichage des pistes en conséquence.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *