En biología evolutiva , secuencias conservadas son idénticos o similares secuencias de ácidos nucleicos ( ADN y ARN ) o proteínas a través de especies ( ortólogos secuencias ), o dentro de un genoma ( paralogous secuencias ), o entre el donante y receptor taxones ( secuencias xenologous ). La conservación indica que una secuencia se ha mantenido por selección natural .
Una secuencia altamente conservada es una que ha permanecido relativamente sin cambios desde el árbol filogenético , y por lo tanto, se remonta al tiempo geológico . Los ejemplos de secuencias altamente conservadas incluyen los componentes de ARN de los ribosomas presentes en todos los dominios de la vida, las secuencias homeobox generalizadas entre los eucariotas y el ARNtm en bacterias . El estudio de la conservación de secuencias se solapa con los campos de genómica , proteómica , biología evolutiva , filogenética , bioinformática ylas matemáticas .
Historia [ editar ]
El descubrimiento del papel del ADN en la herencia y las observaciones de Frederick Sanger sobre la variación entre las insulinas animales en 1949 [2] llevaron a los primeros biólogos moleculares a estudiar la taxonomíadesde una perspectiva molecular. [3] [4] Los estudios realizados en la década de 1960 utilizaron técnicas de hibridación de ADN y reactividad cruzada de proteínas para medir la similitud entre proteínas ortólogas conocidas , como la hemoglobina [5] y el citocromo c . [6] En 1965, Émile Zuckerkandl y Linus Pauling.introdujo el concepto del reloj molecular , [7] proponiendo que se podrían usar tasas constantes de reemplazo de aminoácidos para estimar el tiempo desde que se separaron dos organismos . Si bien las filogenias iniciales coincidían con el registro fósil , las observaciones de que algunos genes parecían evolucionar a diferentes ritmos llevaron al desarrollo de teorías de la evolución molecular . [3] [4] La comparación de las secuencias de ferrodoxina de Margaret Dayhoff en 1966 mostró que la selección natural actuaría para conservar y optimizar las secuencias de proteínas esenciales para la vida. [8]
Mecanismos [ editar ]
Durante muchas generaciones, las secuencias de ácido nucleico en el genoma de un linaje evolutivo pueden cambiar gradualmente con el tiempo debido a mutaciones aleatorias y deleciones . [9] [10] Las secuencias también pueden recombinarse o eliminarse debido a reordenamientos cromosómicos . Las secuencias conservadas son secuencias que persisten en el genoma a pesar de tales fuerzas y tienen tasas de mutación más lentas que la tasa de mutación de fondo. [11]
La conservación puede ocurrir en secuencias de ácidos nucleicos codificantes y no codificantes . Se cree que las secuencias de ADN altamente conservadas tienen valor funcional, aunque el papel de muchas secuencias de ADN no codificadas altamente conservadas no se conoce bien. La medida en que se conserva una secuencia puede verse afectada por las presiones de selección variables , su robustez a la mutación, el tamaño de la población y la deriva genética . Muchas secuencias funcionales también son modulares y contienen regiones que pueden estar sujetas a presiones de selección independientes , como los dominios de proteínas . [ cita requerida ]
Secuencia codificante [ editar ]
En las secuencias de codificación, la secuencia de ácido nucleico y de aminoácidos puede conservarse en diferentes grados, ya que la degeneración del código genético significa que las mutaciones sinónimas en una secuencia de codificación no afectan la secuencia de aminoácidos de su producto proteico. [ cita requerida ]
Las secuencias de aminoácidos pueden conservarse para mantener la estructura o función de una proteína o dominio. Las proteínas conservadas se someten a menos sustituciones de aminoácidos , o son más propensas a sustituir aminoácidos con propiedades bioquímicas similares . Dentro de una secuencia, los aminoácidos que son importantes para el plegamiento , la estabilidad estructural o que forman un sitio de unión pueden estar más altamente conservados. [ cita requerida ]
La secuencia de ácido nucleico de un gen que codifica una proteína también puede conservarse mediante otras presiones selectivas. El sesgo de uso del codón en algunos organismos puede restringir los tipos de mutaciones de sinónimos en una secuencia. Las secuencias de ácido nucleico que causan una estructura secundaria en el ARNm de un gen codificador pueden seleccionarse, ya que algunas estructuras pueden afectar negativamente la traducción, o conservarse donde el ARNm también actúa como un ARN funcional no codificante. [12] [13]
No codificado [ editar ]
Las secuencias no codificantes importantes para la regulación génica , como los sitios de unión o reconocimiento de los ribosomas y los factores de transcripción , pueden conservarse dentro de un genoma. Por ejemplo, el promotor de un gen u operón conservado también puede conservarse. Al igual que con las proteínas, los ácidos nucleicos que son importantes para la estructura y función del ARN no codificante (ARNc) también pueden conservarse. Sin embargo, la conservación de secuencias en ncRNAs es generalmente pobre en comparación con las secuencias codificantes de proteínas, y los pares de bases que contribuyen a la estructura o función a menudo se conservan en su lugar. [14] [15]
Identificación [ editar ]
Las secuencias conservadas se identifican normalmente mediante enfoques bioinformáticos basados en la alineación de secuencias . Los avances en la secuenciación de ADN de alto rendimiento y la espectrometría de masas de proteínas han aumentado sustancialmente la disponibilidad de secuencias de proteínas y genomas completos para comparación desde principios de la década de 2000. [ cita requerida ]
Búsqueda de homología [ editar ]
Las secuencias conservadas pueden identificarse mediante la búsqueda de homología , utilizando herramientas como BLAST , HMMER e Infernal. [16] Las herramientas de búsqueda de homología pueden tomar una secuencia de ácido nucleico o proteína individual como entrada, o usar modelos estadísticos generados a partir de múltiples alineamientos de secuencias de secuencias relacionadas conocidas. Modelos estadísticos como el perfil-HMM y modelos de covarianza de ARN que también incorporan información estructural, [17]Puede ser útil al buscar secuencias relacionadas más distantes. Las secuencias de entrada se alinean luego contra una base de datos de secuencias de individuos relacionados u otras especies. Las alineaciones resultantes se califican luego en función del número de aminoácidos o bases coincidentes, y el número de huecos o eliminaciones generados por la alineación. Se pueden identificar sustituciones conservativas aceptables utilizando matrices de sustitución tales como PAM y BLOSUM . Se asume que las alineaciones altamente puntuales son de secuencias homólogas. La conservación de una secuencia puede inferirse luego por la detección de homólogos muy similares en un amplio rango filogenético. [ cita requerida ]
Alineación de secuencias múltiples [ editar ]
Se pueden usar múltiples alineaciones de secuencias para visualizar secuencias conservadas. El formato CLUSTAL incluye una clave de texto sin formato para anotar columnas conservadas de la alineación, denotando secuencia conservada (*), mutaciones conservativas (:), mutaciones semiconservativas (.) Y mutaciones no conservativas () [19] Logotipos de la secuencia También puede mostrar la secuencia conservada representando las proporciones de los caracteres en cada punto de la alineación por altura. [18]
Alineación del genoma [ editar ]
Las alineaciones genómicas completas (WGA) también se pueden usar para identificar regiones altamente conservadas en todas las especies. Actualmente, la precisión y la escalabilidad de las herramientas WGA siguen siendo limitadas debido a la complejidad computacional de tratar los reordenamientos, las regiones de repetición y el gran tamaño de muchos genomas eucarióticos. [21]Sin embargo, las WGA de 30 o más bacterias estrechamente relacionadas (procariotas) ahora son cada vez más factibles. [22] [23]
Sistemas de puntuación [ editar ]
Otros enfoques utilizan mediciones de conservación basadas en pruebas estadísticas que intentan identificar secuencias que mutan de manera diferente a una tasa de mutación de fondo (neutral) esperada.
El marco GERP (Genomic Evolutionary Rate Profiling) evalúa la conservación de secuencias genéticas a través de especies. Este enfoque estima la tasa de mutación neutra en un conjunto de especies a partir de una alineación de secuencia múltiple, y luego identifica las regiones de la secuencia que muestran menos mutaciones de las esperadas. A estas regiones se les asignan puntuaciones basadas en la diferencia entre la tasa de mutación observada y la tasa de mutación de fondo esperada. Una puntuación GERP alta indica una secuencia altamente conservada. [24] [25]
La LISTA [26] (Identidad local y taxones compartidos) se basa en el supuesto de que las variaciones observadas en especies estrechamente relacionadas con humanos son más significativas cuando se evalúa la conservación en comparación con aquellas en especies relacionadas distantes. Por lo tanto, LIST utiliza la identidad de alineación local alrededor de cada posición para identificar secuencias relevantes en la alineación de secuencias múltiples (MSA) y luego estima la conservación en función de las distancias de taxonomía de estas secuencias a las humanas. A diferencia de otras herramientas, LIST ignora el conteo / la frecuencia de las variaciones en el MSA.
Otros enfoques, como PhyloP y PhyloHMM, incorporan métodos estadísticos filogenéticos para comparar las distribuciones de probabilidad de las tasas de sustitución, lo que permite la detección tanto de la conservación como de la mutación acelerada. Primero, se genera una distribución de probabilidad de fondo del número de sustituciones que se espera que ocurran para una columna en una alineación de secuencia múltiple, basada en un árbol filogenético. Las relaciones evolutivas estimadas entre las especies de interés se utilizan para calcular la importancia de las sustituciones (es decir, es más probable que ocurra una sustitución entre dos especies estrechamente relacionadas que las relacionadas a distancia, y por lo tanto, más significativas). Para detectar la conservación, se calcula una distribución de probabilidad para un subconjunto de la alineación de secuencias múltiples, y se compara con la distribución de fondo mediante una prueba estadística tal como una prueba de relación de probabilidad o una prueba de puntuación . Los valores P generados a partir de la comparación de las dos distribuciones se utilizan para identificar las regiones conservadas. PhyloHMM usa modelos ocultos demarkovGenerar distribuciones de probabilidad. El paquete de software PhyloP compara las distribuciones de probabilidad utilizando una prueba de tasa de verosimilitud o una prueba de puntuación , al igual que un sistema de puntuación similar al GERP. [27] [28] [29]
Conservación extrema [ editar ]
Elementos ultra conservados [ editar ]
Los elementos ultra conservados o UCE son secuencias que son muy similares o idénticas en múltiples agrupaciones taxonómicas . Estos se descubrieron por primera vez en vertebrados , [30] y posteriormente se identificaron dentro de taxones muy diferentes. [31] Si bien el origen y la función de los ECU no se conocen bien, [32] se han utilizado para investigar las divergencias de tiempo profundo en amniotes , [33] insectos , [34] y entre animales y plantas . [35]
Genes universalmente conservadas [ editar ]
Los genes más conservados son aquellos que se pueden encontrar en todos los organismos. Estos consisten principalmente en ncRNAs y proteínas requeridas para la transcripción y traducción , que se supone que se han conservado del último ancestro común universal de toda la vida. [36]
Los genes o familias de genes que se han encontrado universalmente conservados incluyen factores de elongación de unión a GTP , metionina aminopeptidasa 2 , serina hidroximetiltransferasa y transportadores de ATP . [37] Los componentes de la maquinaria de transcripción, como la ARN polimerasa y helicasas , y de la maquinaria de traducción, como los ARN ribosómicos , ARNt y proteínas ribosómicas también se conservan universalmente. [38]
Aplicaciones [ editar ]
Filogenia y taxonomía [ editar ]
Los conjuntos de secuencias conservadas se utilizan a menudo para generar árboles filogenéticos , ya que se puede suponer que los organismos con secuencias similares están estrechamente relacionados. [39] La elección de secuencias puede variar según el alcance taxonómico del estudio. Por ejemplo, los genes más altamente conservados, como el ARN 16S y otras secuencias ribosómicas, son útiles para reconstruir relaciones filogenéticas profundas e identificar los filos bacterianos en los estudios de metagenómica . [40] [41] Las secuencias que se conservan dentro de un clado pero que sufren algunas mutaciones, como los genes de mantenimiento , pueden usarse para estudiar las relaciones de las especies. [42] [43][44] Laregión espaciadora transcrita interna(ITS), que se requiere para espaciar los genes de ARNr conservados pero que experimenta una rápida evolución, se usa comúnmente para clasificar hongos y cepas de bacterias que evolucionan rápidamente. [45] [46] [47] [48]
La investigación médica [ editar ]
Como las secuencias altamente conservadas a menudo tienen funciones biológicas importantes, pueden ser un punto de partida útil para identificar la causa de las enfermedades genéticas . Muchos trastornos metabólicos congénitos y enfermedades de almacenamiento lisosomal son el resultado de cambios en los genes individuales conservados, lo que resulta en enzimas faltantes o defectuosas que son la causa subyacente de los síntomas de la enfermedad. Las enfermedades genéticas pueden predecirse mediante la identificación de secuencias que se conservan entre los humanos y los organismos de laboratorio tales como ratones [49] o moscas de la fruta , [50] y el estudio de los efectos de knock-outs de estos genes. [51] Estudios de asociación de genoma completoTambién se puede utilizar para identificar la variación en secuencias conservadas asociadas con resultados de enfermedad o salud. [52] [53]
Anotación funcional [ editar ]
La identificación de secuencias conservadas puede usarse para descubrir y predecir secuencias funcionales como los genes. [54] Las secuencias conservadas con una función conocida, como los dominios de proteínas, también pueden usarse para predecir la función de una secuencia. Las bases de datos de dominios de proteínas conservadas, como Pfam y la Base de datos de dominios conservados, se pueden utilizar para anotar dominios funcionales en los genes de codificación de proteínas predichos.
No hay comentarios:
Publicar un comentario