User:Lydiaromera/sandbox

Lydiaromera/sandbox
Lydiaromera/sandbox
Identifiers
Symbol	?

Motivo de secuencia

En genética, un motivo de secuencia es un nucleótido o patrón de secuencia de residuos de aminoácidos conservados que son presuntamente importantes para la función de la proteína, de manera que tienen una significancia biológica. Están ubicados dentro de una cierta distancia entre sí.

Un motivo de secuencia se distingue de un motivo estructural, que es un motivo formado por el arreglo tridimensional de aminoácidos que puede ser, o no, adyacente.

Un ejemplo de motivo es el de la N-glicosilación:

Asn, seguida por cualquier aminoácido excepto Pro, seguida por Ser o Thr, seguida por cualquier aminoácido excepto Pro

donde las abreviaturas de las letras son las nomenclaturas convencionales y establecidas para los aminoácidos (ver código genético).

Visión general

Cuándo un motivo de secuencia aparece en el exon de un gen, puede codificar el "motivo estructural" de una proteína; ese es un elemento estereotipado de la estructura global de la proteína. Sin embargo, los motivos no necesitan estar asociados con una estructura secundaria distintiva.

Las secuencias no codificantes de DNA no se traducen a proteínas y los ácidos nucleicos con tales motivos no necesitan desviarse de la forma típica (por ejemplo, la forma B del ADN de doble hélice).

En el exterior de los exones del gen, existen motivos de secuencia reguladora y motivos dentro del "junk", como ADN satélite. Se cree que alguno de estos afecta a la forma de los ácidos nucleicos (como por ejemplo, en el autoempalme de ARN o RNA-self-splicing), pero esto solo ocurre en ocasiones. Por ejemplo, muchas proteínas de unión al ADN (DNA-binding proteins) que tienen afinidad por sitios específicos de unión al ADN, solo se unen a él en su forma de doble hélice. Son capaces de reconocer motivos a través de contacto con el surco mayor o surco menor de la doble hélice.

Los motivos de codificación corta, los cuales parecen carecer de estructura secundaria, incluyen aquellos que señalizan o etiquetan las proteínas para su entrega a diferentes partes de la célula, o bien las marcan para su fosforilación.

Dentro de una secuencia o base de datos de secuencias, los investigadores buscan y encuentran motivos utilizando técnicas de análisis de secuencia pertenecientes a la disciplina de bioinformática, como BLAST. Ver también secuencia de consenso.

Considerando el motivo del sitio de N -glicosilación mencionado anteriormente:

Asn, seguida por cualquier aminoácido excepto Pro, seguida por Ser o Thr, seguida por cualquier aminoácido excepto Pro

Este patrón puede escribirse como:

N{P}[ST]{P}

Donde:

N = Asn, P = Pro, S = Ser, T = Thr; {X}

{X} significa cualquier aminoácido excepto x; y [XY] significa cualquiera X o Y

La notación [XY] no da indicación sobre las probabilidades de X o Y ocurriendo en el patrón. Las probabilidades observadas pueden ser representadas gráficamente utilizando logos de secuencias. A veces los patrones están definidos en plazos de un modelo probabilista como un Modelo oculto de Márkov.

Motifs y secuencias consenso

La notación [XYZ] significa X o Y o Z, pero no indica la probabilidad de una coincidencia en particular. Por esta razón, dos o más patrones a menudo se asocian con un solo motivo: el patrón definitorio y varios patrones típicos.

Por ejemplo, la secuencia que define el motivo IQ puede tomarse como:

[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]

donde x significa cualquier aminoácido y los corchetes indican una alternativa (ver más abajo para más detalles sobre la notación).

Sin embargo, normalmente la primera letra es I, y ambas opciones [RK] resuelven en R . Dado que la última elección es tan amplia, el patrón IQxxxRGxxxR veces se equipara con el motivo IQ en sí, pero una descripción más precisa sería una secuencia de consenso para el motivo IQ .

Notaciones de la descripción del motivo

Se utilizan varias notaciones para describir motivos, pero la mayoría de ellas son variantes de notaciones estándar para expresiones regulares y utilizan estas convenciones:

hay un alfabeto de caracteres individuales, cada uno de los cuales denota un aminoácido específico o un conjunto de aminoácidos;
una cadena de caracteres extraídos del alfabeto denota una secuencia de aminoácidos correspondientes;
cualquier cadena de caracteres extraídos del alfabeto entre corchetes coincide con cualquiera de los aminoácidos correspondientes; por ejemplo, [abc] coincide con cualquiera de los aminoácidos representados por a o b o c

La idea fundamental detrás de todas estas notaciones es el principio de coincidencia, que asigna un significado a una secuencia de elementos de la notación de patrón:

una secuencia de elementos de la notación de patrón coincide con una secuencia de aminoácidos si y solo si la última secuencia puede dividirse en subsecuencias de tal manera que cada elemento de patrón coincida con la subsecuencia correspondiente a su vez.

Por tanto, el patrón [AB] [CDE] F coincide con las seis secuencias de aminoácidos correspondientes a ACF, ADF, AEF, BCF, BDF y BEF .

Las diferentes notaciones de descripción de patrones tienen otras formas de formar elementos de patrones. Una de estas notaciones es la notación PROSITE, que se describe en la siguiente subsección.

PROSITE notación del patrón

La colección más grande y completa de motivos de secuencia se encuentra en la base de datos PROSITE.

La notación PROSITE usa los códigos de una letra de la IUPAC y se ajusta a la descripción anterior con la excepción de que se usa un símbolo de concatenación, ' - ', entre los elementos del patrón, pero a menudo se coloca entre las letras del alfabeto del patrón.

PROSITE permite los siguientes elementos de patrón además de los descritos anteriormente:

La letra minúscula " x " se puede utilizar como elemento de patrón para indicar cualquier aminoácido.
Una cadena de caracteres extraídos del alfabeto y encerrados entre paréntesis denota cualquier aminoácido excepto los de la cadena. Por ejemplo, {ST} denota cualquier aminoácido distinto de S o T
Si un patrón está restringido al N-terminal de una secuencia, el patrón tiene el prefijo ' < '.
Si un patrón está restringido al C-terminal de una secuencia, el patrón tiene el sufijo ' > '.
El carácter ' > ' también puede aparecer dentro de un patrón de corchetes de terminación, de modo que S[T > ] coincida con " ST " y " S > ".
Si e es un elemento de patrón, y m y n son dos números enteros decimales con m <= n, entonces:
- e(m) es equivalente a la repetición de e exactamente m veces;
- e(m,n) es equivalente a la repetición de e exactamente k veces para cualquier entero k satisfaga: m <= k <= n .

Algunos ejemplos:

x(3) es equivalente a xxx .
x(2,4) coincide con cualquier secuencia que coincida con x-x x-x-x o x-x-x-x .

La firma del dominio de dedos de zinc de tipo C2H2 es:

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

Matrices

Una matriz de números que contiene puntuaciones para cada residuo o nucleótido en cada posición de un motivo de longitud fija. Hay dos tipos de matrices de peso.

Una matriz de frecuencia de posición (PFM) registra la frecuencia dependiente de la posición de cada residuo o nucleótido. Los PFM se pueden determinar experimentalmente a partir de experimentos SELEX o se pueden descubrir computacionalmente mediante herramientas como MEME utilizando modelos ocultos de Markov.
Una matriz de ponderación de posición (PWM) contiene ponderaciones de probabilidades de registro para calcular una puntuación de coincidencia. Se necesita un límite para especificar si una secuencia de entrada coincide con el motivo o no. Los PWM se calculan a partir de PFM.

Un ejemplo de un PFM de la base de datos TRANSFAC para el factor de transcripción AP-1:

Pos	A	C	G	T	IUPAC
01	6	2	8	1	R
02	3	5	9	0	S
03	0	0	0	17	T
04	0	0	17	0	G
05	17	0	0	0	A
06	0	16	0	1	C
07	3	2	3	9	T
08	4	7	2	4	N
09	9	6	1	1	M
10	4	3	7	3	N
11	6	3	1	7	W

La primera columna especifica la posición, la segunda columna contiene el número de ocurrencias de A en esa posición, la tercera columna contiene el número de ocurrencias de C en esa posición, la cuarta columna contiene el número de ocurrencias de G en esa posición, el la quinta columna contiene el número de apariciones de T en esa posición, y la última columna contiene la notación IUPAC para esa posición. Tenga en cuenta que las sumas de apariciones de A, C, G y T para cada fila deben ser iguales porque el PFM se deriva de la agregación de varias secuencias consenso.

Descubrimiento del motivo

Visión general

El descubrimiento del motivo de secuencia se ha desarrollado bien desde la década de 1990. En particular, la mayoría de las investigaciones de descubrimiento de motivos existentes se centran en motivos de ADN. Con los avances en la secuenciación de alto rendimiento, estos problemas de descubrimiento de motivos se ven desafiados tanto por los problemas de degeneración del patrón de secuencia como por los problemas de escalabilidad computacional de uso intensivo de datos.

Descubrimiento del motivo de novo

Hay programas de software que, dadas múltiples secuencias de entrada, intentan identificar uno o más motivos candidatos. Un ejemplo es el algoritmo Multiple EM for Motif Elicitation (MEME), que genera información estadística para cada candidato. ^[1] Hay más de 100 publicaciones que detallan los algoritmos de descubrimiento de motivos; Weirauch y col . evaluó muchos algoritmos relacionados en un punto de referencia de 2013. ^[2] La búsqueda de motivos plantados es otro método de descubrimiento de motivos que se basa en un enfoque combinatorio.

Descubrimiento del motivo filogenético

También se han descubierto motivos adoptando un enfoque filogenético y estudiando genes similares en diferentes especies. Por ejemplo, alineando las secuencias de aminoácidos especificadas por el gen GCM ( células gliales faltantes ) en el hombre, el ratón y D. melanogaster, Akiyama y otros descubrieron un patrón al que llamaron motivo GCM en 1996. ^[3] Abarca alrededor de 150 residuos de aminoácidos y comienza de la siguiente manera:

WDIND*.*P..*...D.F.*W***.**.IYS**...Un.*H*S*WAMRNTNNHN

Aquí cada uno . significa un solo aminoácido o un hueco, y cada * indica un miembro de una familia de aminoácidos estrechamente relacionada. Los autores pudieron demostrar que el motivo tiene actividad de unión al ADN.

Un enfoque similar es comúnmente utilizado por las bases de datos modernas de dominios de proteínas como Pfam : los curadores humanos seleccionarían un grupo de secuencias que se sabe están relacionadas y usarían programas de computadora para alinearlas y producir el perfil del motivo, que se puede usar para identificar otras proteínas relacionadas. También se puede utilizar un enfoque filogénico para mejorar el algoritmo MEME de novo, con PhyloGibbs como ejemplo. ^[4]

Descubrimiento del motivo pareado de novo

En 2017, MotifHyades se desarrolló como una herramienta de descubrimiento de motivos que se puede aplicar directamente a secuencias emparejadas. ^[5]

Reconocimiento de un motivo de novo por proteína

En 2018, se propuso un enfoque de campo aleatorio de Markov para inferir motivos de ADN a partir de dominios de proteínas de unión al ADN. ^[6]

Casos de motivo

Códigos de cadena tridimensional

La E. coli lactosa operón represor LacI ( PDB: 1lcc cadena A) y E. coli activadora del gen de catabolito ( PDB: 3gap cadena A) ambos tienen un motivo hélice-giro-hélice, pero sus secuencias de amino ácidos no muestran mucho similitud, como se muestra en la tabla siguiente. En 1997, Matsuda, et al. ideó un código que llamaron "código de cadena tridimensional" para representar la estructura de la proteína como una cadena de letras. Este esquema de codificación revela la similitud entre las proteínas mucho más claramente que la secuencia de aminoácidos (ejemplo del artículo): ^[7] El código codifica los ángulos de torsión entre alfa-carbonos de la estructura de la proteína . "W" siempre corresponde a una hélice alfa.

	3D chain code	Amino acid sequence
1lccA	`TWWWWWWWKCLKWWWWWWG`	`LYDVAEYAGVSYQTVSRVV`
3gapA	`KWWWWWWGKCFKWWWWWWW`	`RQEIGQIVGCSRETVGRIL`

Ejemplos

Motivos de nucleótido

Ejemplo de stem-loop en una molécula de ARN

Stem-loop structure:

Cruciform DNA:

Representación de estructuras en horquilla que conducen a la formación de ADN cruciforme.

D-loop:

G-quadruplex:

Estructura de un G-quadruplex. Izquierda: una G-tétrada. Derecha: un complejo G4 intramolecular.

Motivos de proteína

Greek Key motif
Helix-loop-helix
Helix-turn-helix

Ver también

Referencias

Enlaces externos

^ Bailey, T. L.; Williams, N.; Misleh, C.; Li, W. W. (July 2006). MEME: discovering and analyzing DNA and protein sequence motifs. Vol. 34. pp. W369-73. doi:10.1093/nar/gkl198. PMC 1538909. PMID 16845028. {{cite book}}: |journal= ignored (help)
^ Weirauch, Matthew T.; Cote, Atina; Norel, Raquel; Annala, Matti; Zhao, Yue; Riley, Todd R.; Saez-Rodriguez, Julio; Cokelaer, Thomas; Vedenko, Anastasia; Talukder, Shaheynoor; Bussemaker, Harmen J.; Morris, Quaid D.; Bulyk, Martha L.; Stolovitzky, Gustavo; Hughes, Timothy R.; Hughes, T. R. (February 2013). "Evaluation of methods for modeling transcription factor sequence specificity". Nature Biotechnology. 31 (2): 126–34. doi:10.1038/nbt.2486. PMC 3687085. PMID 23354101. {{cite journal}}: Unknown parameter |número-autores= ignored (help)
^ Akiyama, Yasuko; Hosoya, Toshihiko; Poole, Anthony M.; Hotta, Yoshiki (December 1996). "The gcm-motif: a novel DNA-binding motif conserved in Drosophila and mammals". Proceedings of the National Academy of Sciences of the United States of America. 93 (25): 14912–6. Bibcode:1996PNAS...9314912A. doi:10.1073/pnas.93.25.14912. PMC 26236. PMID 8962155.
^ Siddharthan, Rahul; Siggia, Eric D.; Van Nimwegen, Erik (December 2005). "PhyloGibbs: a Gibbs sampling motif finder that incorporates phylogeny". PLOS Computational Biology. 1 (7): e67. Bibcode:2005PLSCB...1...67S. doi:10.1371/journal.pcbi.0010067. PMC 1309704. PMID 16477324.{{cite journal}}: CS1 maint: unflagged free DOI (link)
^ Wong, Ka-Chun (October 2017). MotifHyades: expectation maximization for de novo DNA motif pair discovery on paired sequences. Vol. 33. pp. 3028–3035. doi:10.1093/bioinformatics/btx381. PMID 28633280. {{cite book}}: |journal= ignored (help)
^ Wong, Ka-Chun (September 2018). "DNA Motif Recognition Modeling from Protein Sequences". iScience. 7: 198–211. Bibcode:2018iSci....7..198W. doi:10.1016/j.isci.2018.09.003. PMC 6153143. PMID 30267681.
^ Matsuda, H.; Taniguchi, F.; Hashimoto, A. (1997). "An approach to detection of protein structural motifs using an encoding scheme of backbone conformations" (PDF). Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing: 280–91. PMID 9390299.

[Bailey2006-1] Bailey, T. L.; Williams, N.; Misleh, C.; Li, W. W. (July 2006). MEME: discovering and analyzing DNA and protein sequence motifs. Vol. 34. pp. W369-73. doi:10.1093/nar/gkl198. PMC 1538909. PMID 16845028. {{cite book}}: |journal= ignored (help)

[Weirauch2013-2] Weirauch, Matthew T.; Cote, Atina; Norel, Raquel; Annala, Matti; Zhao, Yue; Riley, Todd R.; Saez-Rodriguez, Julio; Cokelaer, Thomas; Vedenko, Anastasia; Talukder, Shaheynoor; Bussemaker, Harmen J.; Morris, Quaid D.; Bulyk, Martha L.; Stolovitzky, Gustavo; Hughes, Timothy R.; Hughes, T. R. (February 2013). "Evaluation of methods for modeling transcription factor sequence specificity". Nature Biotechnology. 31 (2): 126–34. doi:10.1038/nbt.2486. PMC 3687085. PMID 23354101. {{cite journal}}: Unknown parameter |número-autores= ignored (help)

[Akiyama1996-3] Akiyama, Yasuko; Hosoya, Toshihiko; Poole, Anthony M.; Hotta, Yoshiki (December 1996). "The gcm-motif: a novel DNA-binding motif conserved in Drosophila and mammals". Proceedings of the National Academy of Sciences of the United States of America. 93 (25): 14912–6. Bibcode:1996PNAS...9314912A. doi:10.1073/pnas.93.25.14912. PMC 26236. PMID 8962155.

[Siddharthan2005-4] Siddharthan, Rahul; Siggia, Eric D.; Van Nimwegen, Erik (December 2005). "PhyloGibbs: a Gibbs sampling motif finder that incorporates phylogeny". PLOS Computational Biology. 1 (7): e67. Bibcode:2005PLSCB...1...67S. doi:10.1371/journal.pcbi.0010067. PMC 1309704. PMID 16477324.{{cite journal}}: CS1 maint: unflagged free DOI (link)

[pmid28633280-5] Wong, Ka-Chun (October 2017). MotifHyades: expectation maximization for de novo DNA motif pair discovery on paired sequences. Vol. 33. pp. 3028–3035. doi:10.1093/bioinformatics/btx381. PMID 28633280. {{cite book}}: |journal= ignored (help)

[pmid30267681-6] Wong, Ka-Chun (September 2018). "DNA Motif Recognition Modeling from Protein Sequences". iScience. 7: 198–211. Bibcode:2018iSci....7..198W. doi:10.1016/j.isci.2018.09.003. PMC 6153143. PMID 30267681.

[Matsuda1997-7] Matsuda, H.; Taniguchi, F.; Hashimoto, A. (1997). "An approach to detection of protein structural motifs using an encoding scheme of backbone conformations" (PDF). Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing: 280–91. PMID 9390299.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Pos	A	C	G	T	IUPAC
01	6	2	8	1	R
02	3	5	9	0	S
03	0	0	0	17	T
04	0	0	17	0	G
05	17	0	0	0	A
06	0	16	0	1	C
07	3	2	3	9	T
08	4	7	2	4	N
09	9	6	1	1	M
10	4	3	7	3	N
11	6	3	1	7	W

Pos	A	C	G	T	IUPAC
01	6	2	8	1	R
02	3	5	9	0	S
03	0	0	0	17	T
04	0	0	17	0	G
05	17	0	0	0	A
06	0	16	0	1	C
07	3	2	3	9	T
08	4	7	2	4	N
09	9	6	1	1	M
10	4	3	7	3	N
11	6	3	1	7	W

Pos	A	C	G	T	IUPAC
01	6	2	8	1	R
02	3	5	9	0	S
03	0	0	0	17	T
04	0	0	17	0	G
05	17	0	0	0	A
06	0	16	0	1	C
07	3	2	3	9	T
08	4	7	2	4	N
09	9	6	1	1	M
10	4	3	7	3	N
11	6	3	1	7	W