Ensembl
Az Ensembl az Európai Bioinformatikai Intézet központi genetikai erőforrást genetikusoknak, molekuláris biológusoknak és más, az ember, más gerincesek és modellszervezetek genomját kutató kutatóknak biztosító tudományos projektje.[1][2][3] Az Ensembl a számos genominformációk kinyerésére használt genomböngésző egyike.
Ensembl | |
Vállalkozás típusa |
|
Oldal típusa |
|
Székhely | Európai Bioinformatikai Intézet |
Származási ország | Egyesült Királyság |
URL | www.ensembl.org |
A Wikimédia Commons tartalmaz Ensembl témájú médiaállományokat. |
Hasonló adatbázisok találhatók a NCBI és a Kaliforniai Egyetem oldalain.
Történet
szerkesztésA humán genom 3,1 milliárd bázispárból és 20 000–25 000 génből áll. Azonban a genom önmagában kevéssé hasznos, kivéve ha az egyes gének helye és kapcsolatai azonosíthatók. Az egyik lehetőség a kézi jelölés, ahol a géneket tudományos folyóiratokból és nyilvános adatbázisokból származó kísérleti adatokkal határozzák meg a kutatók. Ez azonban lassú. A másik lehetőség az automatikus jelölés, itt számítógépeket használnak a fehérje DNS-hez való megfeleltetéséhez.[4][5] Az Ensembl 1999-ben indult el a humángenom-projekt közelgő befejezése miatt, kezdeti céljai a humán genom automatikus jelölése, ennek elérhető biológiai adatokkal való integrációja és nyilvános elérhetősége.[1]
Az Ensembl-projektben szekvenciaadatok kerülnek a Perlben írt szoftverfutószalagokból álló génjelölő rendszerbe, mely előrejelzett génhelyeket ad ki és ment el MySQL-adatbázisban elemzésre és megjelenítésre. Az Ensembl ezen adatokat nyilvánosan elérhetővé teszi. Az Ensembl összes adata és kódja letölthető,[6] ezenkívül a távoli hozzáférést lehetővé tevő nyilvánosan elérhető adatbázisszerver is van. Ezenkívül az Ensembl sok adatot számítógéppel generált vizuális megjelenítéssel is megmutat.
Idővel a projekt további fajokkal bővült (például fontos modellszervezetekkel, amilyenek az egér, a Drosophila melanogaster és a zebradánió) és több genomikai adatot is elkezdett megjeleníteni, például genetikai variációkat és szabályzófunkciókat. 2009 áprilisában az Ensembl Genomes testvérprojekt az Ensembl fókuszát kiterjesztette gerinctelen állatokra, növényekre, gombákra, baktériumokra és protisztákra is a gének taxonómiai és evolúciós kontextusához, míg az eredeti projekt továbbra is a gerincesekre fókuszál.[7][8]
2020-ban az Ensembl több mint 50 000 genomot tartalmazott az Ensembl és Ensembl Genomes adatbázisokban, új funkciói jelentek meg, például a Rapid Release,[9] mely a genomjelölési adatokat gyorsabban elérhetővé teszi, valamint a SARS-CoV-2-referenciagenom oldalával.[10]
Genomadatok megjelenítése
szerkesztésAz Ensemblben fontos a génelrendeződés és más genomikai adatok automatikus grafikus megjelenítése referenciagenomhoz viszonyítva. Ezek adatsávként jelennek meg, és az egyes sávok be- és kikapcsolhatók, lehetővé téve a megjelenés kutatási céloknak megfelelő egyedítését. A felület lehetővé teszi továbbá egy régió nagyítását vagy a genomban való mozgást.
Másutt különböző felbontásokban jelennek meg az adatok a teljes kariotípusoktól a DNS- és aminosav-szekvenciák szöveges megjelenítéséig, vagy más megjelenítési típust mutatnak, például hasonló (homológ) gének fáit számos fajban. Ezeket füles megjelenés egészíti ki, és gyakran közvetlenül a lapról exportálhatók több szabványos fájlformátumban, például FASTA-fájlként.
A kívülről létrejött adatok megfelelő támogatott formátumú (például BAM, BED vagy PSL) fájl feltöltésével.
A grafikus megjelenítést a GD-n, a Perl standard grafikus megjelenítő könyvtárán alapuló modulok hozzák létre.
Alternatív elérési módszerek
szerkesztésA weblapon kívül az Ensembl rendelkezik REST- és Perl-API-val,[11] mely biológiai objektumokat modellez, lehetővé téve egyszerű szkriptek írását a fontos adatok kigyűjtéséhez. Ezek részei a mag-, a compara- (összehasonlító genomikai adatokhoz), a variáció- (SNP-k, SNV-k, CNV-k stb. adataihoz) és a funkcionális genomikai API (szabályzási adatokhoz). Az Ensembl weblapja az API-telepítéshez és -használathoz sok információt nyújt.[12]
E szoftver használható a nyilvános MySQL-adatbázis eléréséhez, így nem szükséges nagy adatbázisok letöltése. A felhasználók közvetlen SQL-lekérdezésekkel is szerezhetnek adatot, de ez az adatbázisséma ismeretét igényli.
Nagy adatbázisok érhetők el a BioMarttal. Ez webes felületet biztosít az összetett lekérdezésekhez szükséges adatbázis-letöltéshez.
Végül teljes MySQL-adatbázisok és más formátumban elérhető adathalmazok letöltésére használatos FTP-szerver is van.[13]
Fajok
szerkesztésA jelölt genomok a legtöbb teljesen szekvenált gerincest és bizonyos modellszervezeteket tartalmaznak. Ezek mind eukarióták. 2024-ben 318 faj szerepelt, például:[14]
Tükrözések
szerkesztésAz Ensembl-projekt minden adata nyilvánosan elérhető, minden szoftver nyílt forrású, szabadon elérhető a tudományos közösség számára CC BY 4.0 licenc alatt. Jelenleg 4 különböző helyen van tükrözés a szolgáltatás javításához.
Hivatalos tükrözések | Leírás |
---|---|
UK (Sanger Institute) | Főoldal |
US West (Amazon AWS) | Felhőalapú tükrözés az Amerikai Egyesült Államok nyugati partján |
US East (Amazon AWS) | Felhőalapú tükrözés az Amerikai Egyesült Államok keleti partján |
Asia (Amazon AWS) | Szingapúri felhőalapú tükrözés |
Jegyzetek
szerkesztés- ↑ a b Hubbard, T. (2002. január 1.). „The Ensembl genome database project”. Nucleic Acids Research 30 (1), 38–41. o. DOI:10.1093/nar/30.1.38. PMID 11752248. PMC 99161.
- ↑ Flicek P, Amode MR, Barrell D (2010. november 1.). „Ensembl 2011”. Nucleic Acids Res 39 (Database issue), D800–D806. o. DOI:10.1093/nar/gkq1064. PMID 21045057. PMC 3013672.
- ↑ Flicek P, Aken BL, Ballester B (2010. január 1.). „Ensembl's 10th year”. Nucleic Acids Res. 38 (Database issue), D557–62. o. DOI:10.1093/nar/gkp972. PMID 19906699. PMC 2808936.
- ↑ Davis, Charles Patrick: Medical definition of Genome Annotation, 2021. március 29. [2021. június 14-i dátummal az eredetiből archiválva]. (Hozzáférés: 2022. augusztus 7.)
- ↑ Curwen, Val (2004. május 1.). „The Ensembl automatic gene annotation system”. Genome Research 14 (5), 942–950. o. DOI:10.1101/gr.1858004. ISSN 1088-9051. PMID 15123590. PMC 479124.
- ↑ Ruffier, Magali (2017. január 1.). „Ensembl core software resources: storage and programmatic access for DNA sequence and genome annotation”. Database 2017 (1), bax020. o. DOI:10.1093/database/bax020. PMID 28365736. PMC 5467575.
- ↑ Hubbard, T. J. P. (2009. január 1.). „Ensembl 2009”. Nucleic Acids Research 37 (Database issue), D690–697. o. DOI:10.1093/nar/gkn828. ISSN 1362-4962. PMID 19033362. PMC 2686571.
- ↑ Howe, Kevin L. (2020. január 8.). „Ensembl Genomes 2020-enabling non-vertebrate genomic research”. Nucleic Acids Research 48 (D1), D689–D695. o. DOI:10.1093/nar/gkz890. ISSN 1362-4962. PMID 31598706. PMC 6943047.
- ↑ Rapid Release
- ↑ COVID-19
- ↑ Stabenau A, McVicker G, Melsopp C, Proctor G, Clamp M, Birney E (2004. február 1.). „The Ensembl Core Software Libraries”. Genome Research 14 (5), 929–933. o. DOI:10.1101/gr.1857204. PMID 15123588. PMC 479122.
- ↑ How to install and use the API
- ↑ FTP-szerver
- ↑ Species List. uswest.ensembl.org . [2022. augusztus 6-i dátummal az eredetiből archiválva]. (Hozzáférés: 2022. augusztus 5.)
Fordítás
szerkesztésEz a szócikk részben vagy egészben az Ensembl című angol Wikipédia-szócikk ezen változatának fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.