UCSC Genome Browser | Guinguette Marais Poitevin

Duża ilość danych na temat systemów biologicznych, która gromadzi się w literaturze, sprawia, że konieczne jest zbieranie i przetwarzanie informacji przy użyciu narzędzi bioinformatycznych. UCSC Genome Browser prezentuje zróżnicowaną kolekcję zbiorów danych anotacyjnych (znanych jako „ścieżki” i przedstawionych graficznie), w tym wyrównania mRNA, mapowania elementów powtarzających DNA, przewidywania genów, dane dotyczące ekspresji genów, dane dotyczące asocjacji chorób (przedstawiające związki genów z chorobami) oraz mapowania komercyjnie dostępnych chipów genowych (np. Illumina i Agilent). Podstawowym paradygmatem wyświetlania jest pokazanie sekwencji genomu w wymiarze poziomym i przedstawienie graficznych reprezentacji lokalizacji mRNA, predykcji genów, itp. Bloki kolorów wzdłuż osi współrzędnych pokazują lokalizacje dopasowań różnych typów danych. Możliwość pokazania tak dużej różnorodności typów danych na jednej osi współrzędnych sprawia, że przeglądarka jest poręcznym narzędziem do pionowej integracji danych.

Aby znaleźć konkretny gen lub region genomowy, użytkownik może wpisać nazwę genu, sekwencję DNA, numer akcesyjny dla RNA, nazwę genomowego pasma cytologicznego (np, 20p13 dla pasma 13 na krótkim ramieniu chr20) lub pozycję chromosomalną (chr17:38,450,000-38,531,000 dla regionu wokół genu BRCA1).

Prezentacja danych w formacie graficznym pozwala na przedstawienie w przeglądarce linku dostępu do szczegółowych informacji o każdej z adnotacji. Strona ze szczegółowymi informacjami o genie w ścieżce UCSC Genes zawiera wiele linków do bardziej szczegółowych informacji o genie w wielu innych źródłach danych, takich jak Online Mendelian Inheritance in Man (OMIM) i SwissProt.

Zaprojektowana do prezentacji złożonych i obszernych danych, przeglądarka UCSC Browser jest zoptymalizowana pod kątem szybkości działania. Dzięki wstępnemu dopasowaniu 55 milionów RNA z GenBank do każdego z 81 zespołów genomów (wiele z 46 gatunków ma więcej niż jeden zespół), przeglądarka umożliwia natychmiastowy dostęp do dopasowań dowolnego RNA do dowolnego z hostowanych gatunków.

Wielokrotne produkty genu FOXP2 (góra) i ewolucyjne zachowanie pokazane w wielokrotnym wyrównaniu (dół)

Połączenie wielu typów danych pozwala badaczom na wyświetlenie dokładnie takiej kombinacji danych, która odpowie na konkretne pytania. Funkcjonalność wyjściowa pdf/postscript pozwala na eksport obrazu gotowego do publikacji w czasopismach akademickich.

Jedną z unikalnych i użytecznych cech, która odróżnia UCSC Browser od innych przeglądarek genomów, jest stale zmienna natura wyświetlania. Sekwencja o dowolnym rozmiarze może być wyświetlana, od pojedynczej bazy DNA do całego chromosomu (ludzki chr1 = 245 milionów baz, Mb) z pełnymi ścieżkami adnotacji. Badacze mogą wyświetlać pojedynczy gen, pojedynczy ekson lub całe pasmo chromosomu, pokazując dziesiątki lub setki genów i dowolną kombinację wielu adnotacji. Wygodna funkcja drag-and-zoom pozwala użytkownikowi wybrać dowolny region na obrazie genomu i rozwinąć go tak, aby zajął cały ekran.

Badacze mogą również użyć przeglądarki do wyświetlenia własnych danych za pomocą narzędzia Custom Tracks. Funkcja ta pozwala użytkownikom na załadowanie pliku z własnymi danymi i wyświetlenie ich w kontekście referencyjnego złożenia genomu. Użytkownicy mogą również korzystać z danych hostowanych przez UCSC, tworząc wybrane przez siebie podzbiory danych za pomocą narzędzia Table Browser (np. tylko SNP, które zmieniają sekwencję aminokwasową białka) i wyświetlać ten specyficzny podzbiór danych w przeglądarce jako Custom Track.

Każdy widok przeglądarki utworzony przez użytkownika, w tym zawierający Custom Tracks, może być udostępniony innym użytkownikom za pomocą narzędzia Saved Sessions.

TracksEdit

UCSC Genome Browser Tracks

Poniżej wyświetlanego obrazu przeglądarki genomu UCSC znajduje się dziewięć kategorii dodatkowych ścieżek, które można wybrać i wyświetlić obok oryginalnych danych. Kategorie te to: mapowanie i sekwencjonowanie, geny i przewidywania genów, fenotyp i literatura, mRNA i EST, ekspresja, regulacja, genomika porównawcza, zmienność i powtórzenia.

Kategorie
Kategoria	Opis	Przykłady ścieżek
Mapowanie i sekwencjonowanie	Umożliwia kontrolę nad stylem wyświetlanego sekwencjonowania.	Pozycja bazowa. Alt Map, Gap
Genes and Gene Predictions	Które programy do przewidywania genów i z jakich baz danych wyświetlać znane geny.	GENCODE v24, Geneid Genes, Pfam w UCSC Gene
Phenotype and Literature	Bazy danych zawierające określone style danych fenotypowych.	OMIM Alleles, Cancer Gene Expr Super-track
mRNA i EST	Dostęp do mRNA i EST dla wyszukiwań specyficznych dla człowieka lub ogólnych wyszukiwań uniwersalnych.	Human ESTs, Other ESTs, Other mRNAs
Ekspresja	Wyświetl unikalną ekspresję wcześniej określonych sekwencji.	GTEx Gene, Affy U133
Regulacja	Informacje dotyczące regulacji transkrypcji z różnych badań.	ENCODE Regulation Super-track Settings, ORegAnno
Comparative Genomics	Pozwala na porównanie poszukiwanej sekwencji z innymi grupami zwierząt o zsekwencjonowanych genomach.	Conservation, Cons 7 Verts, Cons 30 Primates
Variation	Porównuje wyszukiwaną sekwencję ze znanymi wariantami.	Common SNPs(150), All SNPs(146), Flagged SNPs(144)
Repeats	Umożliwia śledzenie różnych rodzajów powtarzających się sekwencji w zapytaniu.	RepeatMasker, Microsatellite, WM + SDust

Mapping and SequencingEdit

Ścieżki te umożliwiają użytkownikowi kontrolę nad wyświetlaniem współrzędnych genomowych, sekwencji i luk. Naukowcy mają możliwość wyboru ścieżek, które najlepiej reprezentują ich zapytanie, aby umożliwić wyświetlenie większej ilości odpowiednich danych w zależności od rodzaju i głębokości prowadzonych badań. Ścieżki mapowania i sekwencjonowania mogą również wyświetlać ścieżki oparte na procentach, aby pokazać badaczowi, czy dany element genetyczny jest bardziej rozpowszechniony w określonym obszarze.

Geny i przewidywania genówEdit

Ścieżki genów i przewidywań genów kontrolują wyświetlanie genów i ich kolejnych części. Różne ścieżki pozwalają użytkownikowi na wyświetlanie modeli genów, regionów kodujących białka, niekodującego RNA, jak również innych danych związanych z genami. Dostępnych jest wiele ścieżek pozwalających badaczom na szybkie porównanie zapytania z wcześniej wybranymi zestawami genów w celu poszukiwania korelacji pomiędzy znanymi zestawami genów.

Ścieżki Fenotyp i LiteraturaEdit

Ścieżki Fenotyp i Literatura zajmują się fenotypem bezpośrednio powiązanym z genami, jak również fenotypem genetycznym. Zastosowanie tych ścieżek jest przeznaczone przede wszystkim dla lekarzy i innych specjalistów zajmujących się zaburzeniami genetycznymi, dla badaczy genetyki oraz dla zaawansowanych studentów nauk ścisłych i medycyny. Badacz może również wyświetlić ścieżkę, która pokazuje genomowe pozycje naturalnych i sztucznych wariantów aminokwasów.

mRNA i ESTEdit

Ścieżki te są związane z znacznikami sekwencji wyrażonych i messenger RNA. ESTs są sekwencjami pojedynczego odczytu, zwykle o długości około 500 baz, które zwykle reprezentują fragmenty transkrybowanych genów. Ścieżki mRNA pozwalają na wyświetlanie danych dotyczących wyrównania mRNA u ludzi, jak również u innych gatunków. Istnieją również ścieżki pozwalające na porównanie z regionami EST, które wykazują oznaki splicingu, gdy są zrównane z genomem.

ExpressionEdit

Ścieżki ekspresji są używane do powiązania danych genetycznych z obszarami tkanek, w których ulegają ekspresji. Pozwala to badaczowi odkryć, czy dany gen lub sekwencja jest powiązana z różnymi tkankami w całym organizmie. Ścieżki ekspresji pozwalają również na wyświetlenie danych konsensusowych o tkankach, które wyrażają region zapytania.

RegulationEdit

Ścieżki regulacji w UCSC Genome browser są kategorią ścieżek, które kontrolują reprezentację promotorów i regionów kontrolnych w genomie. Badacz może dostosować ścieżki regulacji, aby dodać wykres do przeglądarki genomu. Wyświetlacze te pozwalają na uzyskanie większej ilości szczegółów na temat regionów regulacyjnych, miejsc wiązania czynników transkrypcyjnych, miejsc wiązania RNA, wariantów regulacyjnych, haplotypów i innych elementów regulacyjnych.

Comparative GenomicsEdit

Przeglądarka genomu UCSC pozwala użytkownikowi na wyświetlanie różnych rodzajów danych konserwatywnych. Użytkownik może wybrać spośród różnych ścieżek, w tym naczelnych, kręgowców, ssaków i innych, i zobaczyć, jak poszukiwana sekwencja genów jest zachowana wśród innych gatunków. Porównawcze dopasowania dają graficzny obraz ewolucyjnych relacji między gatunkami. Dzięki temu jest to użyteczne narzędzie zarówno dla naukowca, który może wizualizować regiony konserwowania wśród grupy gatunków i przewidywać elementy funkcjonalne w nieznanych regionach DNA, jak i w klasie jako narzędzie ilustrujące jeden z najbardziej przekonujących argumentów za ewolucją gatunków. 44-kierunkowa ścieżka porównawcza zespołu ludzkiego wyraźnie pokazuje, że im dalej wstecz w czasie ewolucji, tym mniej homologii sekwencji pozostaje, ale funkcjonalnie ważne regiony genomu (np. eksony i elementy kontrolne, ale nie introny) są zachowane znacznie dalej wstecz w czasie ewolucji.

Dane o zmiennościEdit

Wyświetlanych jest również wiele typów danych o zmienności. Na przykład, cała zawartość każdego wydania bazy danych dbSNP z NCBI jest mapowana do genomów człowieka, myszy i innych. Obejmuje to owoce projektu 1000 Genomes, gdy tylko zostaną one opublikowane w dbSNP. Inne typy danych o zmienności obejmują dane o zmienności numerów kopii (CNV) i częstotliwości alleli populacji ludzkiej z projektu HapMap.

RepeatsEdit

Ścieżki powtórzeń w przeglądarce genomu pozwalają użytkownikowi zobaczyć wizualną reprezentację obszarów DNA z powtórzeniami o niskiej złożoności. Możliwość wizualizacji powtórzeń w sekwencji pozwala na szybkie wnioskowanie na temat zapytania w wyszukiwarce genomu. Naukowiec może szybko zauważyć, że jego wyszukiwanie zawiera dużą ilość powtarzających się sekwencji i odpowiednio dostosować swoje wyszukiwanie lub wyświetlanie ścieżek.

Guinguette Marais Poitevin

Blog

UCSC Genome Browser (Polski)