Ensembl

génszekvencia-adatbázis
Ez a közzétett változat, ellenőrizve: 2024. február 27.

Az Ensembl az Európai Bioinformatikai Intézet központi genetikai erőforrást genetikusoknak, molekuláris biológusoknak és más, az ember, más gerincesek és modellszervezetek genomját kutató kutatóknak biztosító tudományos projektje.[1][2][3] Az Ensembl a számos genominformációk kinyerésére használt genomböngésző egyike.

Ensembl
Vállalkozás típusa
  • internetes adatbázis
  • biológiai adatbázis
Oldal típusa
  • internetes adatbázis
  • biológiai adatbázis
SzékhelyEurópai Bioinformatikai Intézet
Származási országEgyesült Királyság
URLwww.ensembl.org
A Wikimédia Commons tartalmaz Ensembl témájú médiaállományokat.

Hasonló adatbázisok találhatók a NCBI és a Kaliforniai Egyetem oldalain.

Történet

szerkesztés

A humán genom 3,1 milliárd bázispárból és 20 000–25 000 génből áll. Azonban a genom önmagában kevéssé hasznos, kivéve ha az egyes gének helye és kapcsolatai azonosíthatók. Az egyik lehetőség a kézi jelölés, ahol a géneket tudományos folyóiratokból és nyilvános adatbázisokból származó kísérleti adatokkal határozzák meg a kutatók. Ez azonban lassú. A másik lehetőség az automatikus jelölés, itt számítógépeket használnak a fehérje DNS-hez való megfeleltetéséhez.[4][5] Az Ensembl 1999-ben indult el a humángenom-projekt közelgő befejezése miatt, kezdeti céljai a humán genom automatikus jelölése, ennek elérhető biológiai adatokkal való integrációja és nyilvános elérhetősége.[1]

Az Ensembl-projektben szekvenciaadatok kerülnek a Perlben írt szoftverfutószalagokból álló génjelölő rendszerbe, mely előrejelzett génhelyeket ad ki és ment el MySQL-adatbázisban elemzésre és megjelenítésre. Az Ensembl ezen adatokat nyilvánosan elérhetővé teszi. Az Ensembl összes adata és kódja letölthető,[6] ezenkívül a távoli hozzáférést lehetővé tevő nyilvánosan elérhető adatbázisszerver is van. Ezenkívül az Ensembl sok adatot számítógéppel generált vizuális megjelenítéssel is megmutat.

Idővel a projekt további fajokkal bővült (például fontos modellszervezetekkel, amilyenek az egér, a Drosophila melanogaster és a zebradánió) és több genomikai adatot is elkezdett megjeleníteni, például genetikai variációkat és szabályzófunkciókat. 2009 áprilisában az Ensembl Genomes testvérprojekt az Ensembl fókuszát kiterjesztette gerinctelen állatokra, növényekre, gombákra, baktériumokra és protisztákra is a gének taxonómiai és evolúciós kontextusához, míg az eredeti projekt továbbra is a gerincesekre fókuszál.[7][8]

2020-ban az Ensembl több mint 50 000 genomot tartalmazott az Ensembl és Ensembl Genomes adatbázisokban, új funkciói jelentek meg, például a Rapid Release,[9] mely a genomjelölési adatokat gyorsabban elérhetővé teszi, valamint a SARS-CoV-2-referenciagenom oldalával.[10]

Genomadatok megjelenítése

szerkesztés
 
Az SGCB gén a humán genomban

Az Ensemblben fontos a génelrendeződés és más genomikai adatok automatikus grafikus megjelenítése referenciagenomhoz viszonyítva. Ezek adatsávként jelennek meg, és az egyes sávok be- és kikapcsolhatók, lehetővé téve a megjelenés kutatási céloknak megfelelő egyedítését. A felület lehetővé teszi továbbá egy régió nagyítását vagy a genomban való mozgást.

Másutt különböző felbontásokban jelennek meg az adatok a teljes kariotípusoktól a DNS- és aminosav-szekvenciák szöveges megjelenítéséig, vagy más megjelenítési típust mutatnak, például hasonló (homológ) gének fáit számos fajban. Ezeket füles megjelenés egészíti ki, és gyakran közvetlenül a lapról exportálhatók több szabványos fájlformátumban, például FASTA-fájlként.

A kívülről létrejött adatok megfelelő támogatott formátumú (például BAM, BED vagy PSL) fájl feltöltésével.

A grafikus megjelenítést a GD-n, a Perl standard grafikus megjelenítő könyvtárán alapuló modulok hozzák létre.

Alternatív elérési módszerek

szerkesztés

A weblapon kívül az Ensembl rendelkezik REST- és Perl-API-val,[11] mely biológiai objektumokat modellez, lehetővé téve egyszerű szkriptek írását a fontos adatok kigyűjtéséhez. Ezek részei a mag-, a compara- (összehasonlító genomikai adatokhoz), a variáció- (SNP-k, SNV-k, CNV-k stb. adataihoz) és a funkcionális genomikai API (szabályzási adatokhoz). Az Ensembl weblapja az API-telepítéshez és -használathoz sok információt nyújt.[12]

E szoftver használható a nyilvános MySQL-adatbázis eléréséhez, így nem szükséges nagy adatbázisok letöltése. A felhasználók közvetlen SQL-lekérdezésekkel is szerezhetnek adatot, de ez az adatbázisséma ismeretét igényli.

Nagy adatbázisok érhetők el a BioMarttal. Ez webes felületet biztosít az összetett lekérdezésekhez szükséges adatbázis-letöltéshez.

Végül teljes MySQL-adatbázisok és más formátumban elérhető adathalmazok letöltésére használatos FTP-szerver is van.[13]

A jelölt genomok a legtöbb teljesen szekvenált gerincest és bizonyos modellszervezeteket tartalmaznak. Ezek mind eukarióták. 2024-ben 318 faj szerepelt, például:[14]

Fajok
Chordata Mammalia Euarchontoglires Primates Angola colobus, bolíviai mókusmajom, Rhinopithecus bieti, bonobó, Otolemur garnettii, Cebus imitator, csimpánz, fehérpamacsos selyemmajom, Coquerel-szifaka, közönséges makákó, drill, ember, Rhesus-makákó, Microcebus murinus, dzseládapávián, gibbonfélék, arany piszeorrú majom, gorilla, Hapalemur simus, Chlorocebus sabaeus, Aotus nancymaae, Papio anubis, orángután, Macaca leonina, emsemakákó, kormos mangábé, Fülöp-szigeteki koboldmaki, Piliocolobus tephrosceles
Scandentia mókuscickányok
Glires Mus spretus, havasi mormota, kanadai hód, sarki ürge, Cavia aperea, Cricetulus griseus, Fukomys damarensis, Spermophilus dauricus, degu, európai mókus, szíriai aranyhörcsög, Ictidomys tridecemlineatus, tengerimalac, Dipodomys ordii, egiyptomi ugróegér, csincsilla, mongol futóegér, egér, őzegér, patkány, amerikai pocoknyúl, Microtus ochrogaster, üregi nyúl, Mus caroli, Mus pahari, güzüegér, Nannospalax spp.
Laurasiatheria alpaka, amerikai bölény, fekete medve, amerikai nyérc, dromedár, örvös medve, beluga, kék bálna, Chaco-pekari, kaliforniai oroszlánfóka, kanadai hiúz, macska, szarvasmarha, dingó, kutya, palackorrú delfin, jak, szamár, kecske, vadászgörény, óriáspanda, nagy patkósdenevér, európai sün, , párduc, Echinops telfairi, oroszlán, szurikáta, repülőkutya, Myotis lucifugus, narvál, jegesmedve, házi sertés, vörös róka, bárány, erdei cickány, szibériai pézsmaszarvas, nagy ámbráscet, szibériai tigris, kaliforniai disznódelfin, Cervus hanglu
Afrotheria elefánt, fokföldi szirtiborz, tanrekfélék
Xenarthra tatu, lajhár
Marsupialia közönséges vombat, koala, oposszum, tasmán ördög, Derby-kenguru
Monotrema kacsacsőrű emlős
Reptilia Salvator merianae, Laticauda laticaudata, belföldi szakállasagáma, kínai lágyhéjú teknős, aligátorteknős, Podarcis muralis, kaliforniai üregteknős, Pseudonaja textilis, bordás krokodil, Gopherus evgoodei, zöld anolisz, pápaszemes kobra, komodói varánusz, Notechis scutatus, díszes ékszerteknős, Chelonoidis nigra, Terrapene triunguis, hidasgyík, Pelusios castaneus
Madarak dél-afrikai strucc, japáni sirálykapinty, kékkoronás pipra, kék cinege, hullámos papagáj, üregi bagoly, házi tyúk, chilei tinamu, örvös légykapó, házi kanári, vörös vércse, téli sármánypinty, kacsák, keleti egerészölyv, emu, uhu, karvaly, szirti sas, aranyfácán, aranyvörös pipra, Gould-amandina, széncinege, nagy foltos kivi, sisakos gyöngytyúk, kék páva, japán fürj, kakapó, kis foltos kivi, tőkés réce, közepes földipinty, új-kaledón varjú, nyugati erdeibagoly, okaritói barna kivi, Otus sunia, rövidcsőrű lúd, fácán, pajzsos cankó, barnafejű bozóttimália, ezüstös pápaszemesmadár, kis rovarevő fapinty, Calidris pygmaea, lazúr tündérmadár, flótázó fülemülerigó, kínai hattyúlúd, pulyka, fehértorkú verébsármány, jamaicai amazon, zebrapinty
Lissamphibia Leptobrachium leishanense, Xenopus tropicalis
Teleostei Poecilia formosa, ázsiai csontnyelvű hal, atlanti tőkehal, hering, lazac, foltos ajakoshal, Stegastes partitus, Sinocyclocheilus anshuiensis, Oreochromis aureus, Gouania willdenowi, sebes pisztráng, Astatotilapia burtoni, Cottoperca, pettyes harcsa, Oryzias sinensis, királylazac, Anabas testudineus, Amphiprioninae, bojtosúszójúhal-alakúak, Oncorhynchus kisutch, ponty, Denticeps clupeoides, Astatotilapia calliptera, elektromos ráják, Callorhinchus milii, farkassügér, Sparus aurata, Sinocyclocheilus grahami, aranyhal, Seriola dumerili, szivárványos guppi, nyálkahalak, Sinocyclocheilus rhinocerous, dunai galóca, Parambassis ranga, Oryzias melastigma, japán medaka, Salarias fascintus, Larimichthys crocea, Echeneis naucrates, Cyclopteridae, Neolamprologus brichardi, Pundamilia, Kryptolebias marmoratus, Astyanax mexicanus, Amphilophus citrinellus, Xiphophorus couchianus, Fundulus heteroclitus, nílusi tilápia, csuka, holdhal, narancs bohóchal, Sphaeramia orbicularis, Paramormyrops kingsleyae, Periophthalmus magnuspinnatus, fogassüllő, Myripristis murdjan, platti, szivárványos pisztráng, vöröshasú pirája, kígyófejű hal, feketeszájú géb, Poecilia latipinna, Cyprinodon variegatus, Poecilia mexicana, sziámi harcoshal, Acanthochromis polyacanthus, pettyes kajmánhal, Synbranchidae, Dichotomyctere nigroviridis, tüskés pikó, Hippocampus comes, Cynoglossus semilaevis, nagy rombuszhal, Nothobranchius furzeri, szúnyogirtó fogasponty, Seriota lalandi, Takifugu rubripes (fugu), zebradánió, Maylandia zebra, Mastacembelus armatus
Cyclostomata Petromyzon marinus (tengeri ingola)
Tunicata Ciona intestinalis, Ciona savignyi
Gerinctelenek Rovarok Drosophila melanogaster, Anopheles gambiae (szúnyog), Aedes aegypti (szúnyog)
Férgek Caenorhabditis elegans
Élesztőgombák Saccharomyces cerevisiae

Tükrözések

szerkesztés

Az Ensembl-projekt minden adata nyilvánosan elérhető, minden szoftver nyílt forrású, szabadon elérhető a tudományos közösség számára CC BY 4.0 licenc alatt. Jelenleg 4 különböző helyen van tükrözés a szolgáltatás javításához.

Hivatalos tükrözések Leírás
UK (Sanger Institute) Főoldal
US West (Amazon AWS) Felhőalapú tükrözés az Amerikai Egyesült Államok nyugati partján
US East (Amazon AWS) Felhőalapú tükrözés az Amerikai Egyesült Államok keleti partján
Asia (Amazon AWS) Szingapúri felhőalapú tükrözés
  1. a b Hubbard, T. (2002. január 1.). „The Ensembl genome database project”. Nucleic Acids Research 30 (1), 38–41. o. DOI:10.1093/nar/30.1.38. PMID 11752248. PMC 99161. 
  2. Flicek P, Amode MR, Barrell D (2010. november 1.). „Ensembl 2011”. Nucleic Acids Res 39 (Database issue), D800–D806. o. DOI:10.1093/nar/gkq1064. PMID 21045057. PMC 3013672. 
  3. Flicek P, Aken BL, Ballester B (2010. január 1.). „Ensembl's 10th year”. Nucleic Acids Res. 38 (Database issue), D557–62. o. DOI:10.1093/nar/gkp972. PMID 19906699. PMC 2808936. 
  4. Davis, Charles Patrick: Medical definition of Genome Annotation, 2021. március 29. [2021. június 14-i dátummal az eredetiből archiválva]. (Hozzáférés: 2022. augusztus 7.)
  5. Curwen, Val (2004. május 1.). „The Ensembl automatic gene annotation system”. Genome Research 14 (5), 942–950. o. DOI:10.1101/gr.1858004. ISSN 1088-9051. PMID 15123590. PMC 479124. 
  6. Ruffier, Magali (2017. január 1.). „Ensembl core software resources: storage and programmatic access for DNA sequence and genome annotation”. Database 2017 (1), bax020. o. DOI:10.1093/database/bax020. PMID 28365736. PMC 5467575. 
  7. Hubbard, T. J. P. (2009. január 1.). „Ensembl 2009”. Nucleic Acids Research 37 (Database issue), D690–697. o. DOI:10.1093/nar/gkn828. ISSN 1362-4962. PMID 19033362. PMC 2686571. 
  8. Howe, Kevin L. (2020. január 8.). „Ensembl Genomes 2020-enabling non-vertebrate genomic research”. Nucleic Acids Research 48 (D1), D689–D695. o. DOI:10.1093/nar/gkz890. ISSN 1362-4962. PMID 31598706. PMC 6943047. 
  9. Rapid Release
  10. COVID-19
  11. Stabenau A, McVicker G, Melsopp C, Proctor G, Clamp M, Birney E (2004. február 1.). „The Ensembl Core Software Libraries”. Genome Research 14 (5), 929–933. o. DOI:10.1101/gr.1857204. PMID 15123588. PMC 479122. 
  12. How to install and use the API
  13. FTP-szerver
  14. Species List. uswest.ensembl.org . [2022. augusztus 6-i dátummal az eredetiből archiválva]. (Hozzáférés: 2022. augusztus 5.)

Fordítás

szerkesztés

Ez a szócikk részben vagy egészben az Ensembl című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Kapcsolódó szócikkek

szerkesztés

További információk

szerkesztés
A Wikimédia Commons tartalmaz Ensembl témájú médiaállományokat.
  NODES
INTERN 2
Note 1
Project 1