Mednarodni kemijski identifikator
Mednarodni kemijski identifikator IUPAC (InChI, /ˈɪntʃiː/) je besedilni identifikator kemijskih spojin, ki je zasnovan tako, da zagotovi standarden in razumljiv način zapisovanja podatkov o molekuli in omogoča iskanje tovrstnih informacij v bazah podatkov in na spletu. Sistem sta razvila Mednarodna zveza za čisto in uporabno kemijo in Narodni urad za standarde in tehnologijo v letih 2000–2005. Oblika in algoritmi niso zakonsko zaščiteni in so prosto dostopni pod pogoji LGPL, sam naziv "InChI" pa je zaščitena blagovna znamka IUPAC.[3]
Razvijalec | InChI Trust |
---|---|
Začetna izdaja | 15. april 2005[1][2] |
Stabilna izdaja | 21 avgust 2024 |
OS | Microsoft Windows in Unix-like |
Okolje | IA-32 in x86-64 |
Razpoložljivi jeziki | angleščina |
Licenca | IUPAC / InChI Trust Licence |
Spletno mesto | www |
Ime
urediMednarodni kemijski identifikator se je na začetku imenoval IChI (IUPAC Chemical Identifier). Julija 2004 se je preimenoval v INChI (IUPAC-NIST Chemical Identifier), novembra 2004 pa v InChI (IUPAC International Chemical Identifier) in je zaščitena blagovna znamka IUPAC.
Opis
urediIdentifikatorji InChI opisujejo kemijske spojine v vešslojnih informacijah, v katere spadajo atomi in njihove medsebojne povezave ter informacije o tavtomeriji, izotopih, stereokemiji in električnih nabojih. V sistem niso vedno zajeti vsi sloji. Primer: če podatki o tavtomeriji za neko spojino niso pomembni, je tavtomerni sloj lahko izpuščen.
InChI se od zelo razširjenega števila CAS razlikuje v treh pogledih:
- ni avtorsko zaščiten
- lahko se izračuna iz podatkov o zgradbi spojine in ne potrebuje odobritve nobene organizacije
- večina informacij v InChI je bralcu razumljiva
InChI je torej nekakšna posplošena in skrajno formalizirana verzija IUPAC-ovih imen kemijskih spojin. InChI lahko izrazi več informacij kot enostavnejši SMILES in se od njega razlikuje po tem, da ima vsaka struktura enoznačen InChI, kar je pomembno za uporabo v bazah podatkov. InChI ne daje informacij o trodimenzionalnih koordinatah atomov. Za take primere se lahko uporabi format PDB.
Pretvarjanje strukturnih informacij o spojini v enoten InChI identifikator poteka v treh korakih: normalizacija, ki odstrani vse odvečne informacije, kanonizacija, ki vsakemu atomu pripiše enoznačno (zaporedno) številko, in serializacija, ki podatke pretvori v niz znakov.
Ključ InChI, ki je poznan tudi kot sesekljani InChI, je niz s stalno dolžino 25 znakov, ki je zgoščena digitalna oblika zapisa InChI in za bralca ni razumljiva. Ključ InChI se je začel uporabljati septembra 2007, da bi olajšal iskanje kemijskih spojin na spletu, ker je bilo iskanje s celotnim InChI problematično.[4]
Končna verzija programske opreme InChI z oznako 1.02 je bila izdana januarja 2007. Zadnja verzija generira tako imenovani standardni InChI, ki uporabnikom ne dopušča izbiranja opcij na slojih stereokemije in tavtomerije. Standardni ključ InChI je binarna verzija standardnega niza InChI.
Oblika zapisa in sloji
urediVsak InChI se začne z uvodnim nizom "InChI =", kateremu sledi številka verzije, trenutno 1. Ostale informacije so strukturirane kot sekvence slojev in podslojev. Vsak sloj daje specifično vrsto informacij. Sloji in podsloji so ločeni s poševnico "/" in se začenjajo z značilnim predznakom. Izjema je podsloj za kemijsko formulo, ki je del glavnega sloja. Sistem ima šest slojev z nekaj podsloji:
- Glavni sloj
- Kemijska formula (brez predznaka) je edini podsloj, ki mora biti v vseh InChI.
- Povezava atomov (predznak "c"), v katerem so opisi medsebojnih povezav atomov. Atomi v kemijskih formulah, razen vodika, so oštevilčeni po sekvencah.
- Vodikovi atomi (predznak "h"). Podsloj opisuje, koliko vodikovih atomov je vezanih na posameznih drugih atomih.
- Nabojni sloj
- Podsloj s pozitivnimi naboji ima predznak "p".
- Podsloj z negativnimi naboji ima predznak "q".
- Stereokemijski sloj
- Izotopski sloj
- Stalni H-sloj
- Povezovalni sloj
Sistem poševnica-predznak ima to prednost, da lahko uporabnik išče identifikatorje, ki se ujemajo samo v izbranih slojih.
Primera
urediCH3CH2OH etanol |
InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3 |
L-askorbinska kislina |
InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1 |
Ključ InChI
urediZgoščeni 25 znakov dolgi ključ InChI je binarna verzija InChI, narejena z algoritmom SHA-256. Ključ InChI omogoča enostavno iskanje kemijskih spojin na spletu.[4] Večina kemijskih struktur, ki so prišle na splet do leta 2007, je zapisana v formatu GIF, zato se jih na spletu ne da iskati po njihovih kemijskih zgradbah.
Celoten identifikator InChI je za iskanje spojin predolg, zato so razvili ključ InChI. Pri iskanju s ključem obstaja možnost, da imata dve spojini enak ključ, vendar je ta možnost izjemno majhna. Verjetnost podvajanja prvih štirinajstih znakov ključa InChI je ocenjena na eno podvajanje v 75 bazah podatkov, če bi vsaka baza podatkov vsebovala po eno milijardo struktur. Vse baze podatkov skupaj trenutno vsebujejo manj kot 50 milijonov struktur, zato je možnost podvajanja skoraj izključena.
Prvih 14 znakov ključa InChI je rezultat sekljanja podatkov iz InChI o povezavah, ki jim sledi črtica (-). Črtici sledi 8 znakov, ki so rezultat sekljanja ostalih slojev InChI. Predzadnji znak v binarnem nizu je oznaka verzije, zadnji pa kontrolna vsota.
Primer: morfin ima zgradbo, ki je prikazana na zgornji sliki. InChI morfina je:
InChI = 1/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11-,13-,16-,17-/m0/s1,
njegov ključ InChI pa:
BQJCRHHNABKAKU-XKUOQXLYBY.[5]
Zunanje povezave
urediDokumentacija in predstavitve
uredi- Spletna stran IUPAC InChI
- Neuradni InChI FAQ Arhivirano 2012-03-06 na Wayback Machine.
- InChI - tehnični pritočnik]PDF (335 KB)
- Opis algoritma za kanonizacijo
- Googling for InChIs, predstavitev
- The Semantic Chemical Web: GoogleInChI and other Mashups Arhivirano 2012-03-27 na Wayback Machine., Google Tech Talk, Peter Murray-Rust, 13. september 2006
- IUPAC InChI Arhivirano 2011-11-25 na Wayback Machine., Google Tech Talk, Steve Heller in Steve Stein, 2. november 2006
- InChI Release 1.02 Arhivirano 2010-03-30 na Wayback Machine., končna verzija InChI 1.02 in razlaga standardnega InChi, januar 2009
Programska oprema in podpora
uredi- NCI/CADD Chemical Identifier Resolver Generira in razstavlja InChI/InChI ključe in mnoge druge kemijske identifikatorje
- Generate InChI Arhivirano 2005-11-01 na Wayback Machine., interaktivna podpora na Univerzi Cambridge (interaktivna ali WSDL)
- Search Google for molecules Arhivirano 2006-01-17 na Wayback Machine., generira InChI, zahteva Javascript
- ChemSketch Arhivirano 2006-10-18 na Wayback Machine., nezaščiten programski paket za risanje kemijskih struktur, ki vključuje input in output v InChI formatu
- PubChem online molecule editor, ki podpira SMILES/SMARTS in InChI
- ChemSpider Services Omogoča generiranje InChI, in pretvarjanje InChI, na primer v SMILES, in generira tudi druge lastnosti
- MarvinSketch Arhivirano 2007-04-04 na Wayback Machine. iz ChemAxona omogoča risanje struktur, odpiranje datotek v drugih formatih in output v InChI formatu
- BKchem implementira svoj lastni InChI stavek in uporablja IUPACove implementacije za generiranje InChI nizov
Sklici
uredi- ↑ »IUPAC International Chemical Identifier Project Page«. IUPAC. Arhivirano iz prvotnega spletišča dne 27. maja 2012. Pridobljeno 5. decembra 2012.
- ↑ Heller, S.; McNaught, A.; Stein, S.; Tchekhovskoi, D.; Pletnev, I. (2013). »InChI - the worldwide chemical structure identifier standard«. Journal of Cheminformatics. 5 (1): 7. doi:10.1186/1758-2946-5-7. PMC 3599061. PMID 23343401.
- ↑ McNaught, Alan (2006). »The IUPAC International Chemical Identifier:InChl«. Chemistry International. Zv. 28, št. 6. IUPAC. Pridobljeno 18. septembra 2007.
- ↑ 4,0 4,1 »The IUPAC International Chemical Identifier (InChI)«. IUPAC. 5. september 2007. Arhivirano iz prvotnega spletišča dne 30. oktobra 2007. Pridobljeno 18. septembra 2007.
- ↑ »InChI=1/C17H19NO3/c1-18...«. Chemspider. Pridobljeno 18. septembra 2007.