Un contig (de contiguo ) es un conjunto de segmentos de ADN superpuestos que juntos representan una región de consenso del ADN . [1] En los proyectos de secuenciación ascendente , un contig se refiere a la superposición de datos de secuencias (lecturas); [2] en los proyectos de secuenciación descendente , contig se refiere a los clones superpuestos que forman un mapa físico del genoma que se usa para guiar la secuenciación y el ensamblaje . [3] Por lo tanto, los contigs pueden referirse tanto a la secuencia de ADN superpuesta como a la superposición de segmentos físicos (fragmentos) contenidos en los clones, según el contexto.
Definición original de contig [ editar ]
En 1980, Staden [4] escribió: Para que sea más fácil hablar de nuestros datos obtenidos mediante el método de secuenciación con escopeta, hemos inventado la palabra "contig". Un contig es un conjunto de lecturas de gel que están relacionadas entre sí por la superposición de sus secuencias. Todas las lecturas de gel pertenecen a un solo contig, y cada contig contiene al menos una lectura de gel. Las lecturas del gel en un contig se pueden sumar para formar una secuencia de consenso contigua y la longitud de esta secuencia es la longitud del contig.
Secuencia de contigs [ editar ]
Una secuencia contig es una secuencia continua (no contigua) que resulta del reensamblaje de los pequeños fragmentos de ADN generados por las estrategias de secuenciación de abajo hacia arriba . Este significado de contig es consistente con la definición original de Rodger Staden (1979). [5] La estrategia de secuenciación de ADN de abajo hacia arriba consiste en dividir el ADN genómico en muchos fragmentos pequeños ("abajo"), secuenciar estos fragmentos, volver a ensamblarlos en contigs y, finalmente, en todo el genoma ("arriba"). Debido a que la tecnología actual permite la secuenciación directa de solo fragmentos de ADN relativamente cortos (300-1000 nucleótidos), el ADN genómico debe fragmentarse en pequeños fragmentos antes de la secuenciación. [6] En proyectos de secuenciación de abajo hacia arriba,El ADN amplificado se corta aleatoriamente en fragmentos de tamaño apropiado para la secuenciación. Las lecturas de secuencia subsiguientes, que son los datos que contienen las secuencias de los fragmentos pequeños, se colocan en una base de datos. El software de ensamblaje [6] luego busca en esta base de datos pares de lecturas superpuestas. El ensamblaje de las lecturas de tal par (que incluye, por supuesto, solo una copia de la secuencia idéntica) produce una lectura contigua (contig) más larga del ADN secuenciado. Al repetir este proceso muchas veces, al principio con los pares cortos iniciales de lecturas pero luego utilizando pares cada vez más largos que son el resultado del ensamblaje anterior, se puede determinar la secuencia de ADN de un cromosoma completo.
Hoy en día, es común utilizar la tecnología de secuenciación de extremo pareado en la que se secuencian ambos extremos de fragmentos de ADN más largos y de tamaño consistente . Aquí, un contig todavía se refiere a cualquier tramo contiguo de datos de secuencia creados por la superposición de lectura. Debido a que los fragmentos son de longitud conocida, se conoce la distancia entre las dos lecturas finales de cada fragmento. [7]Esto proporciona información adicional sobre la orientación de los contigs construidos a partir de estas lecturas y permite su ensamblaje en andamios .
Los andamios consisten en contigs superpuestos separados por huecos de longitud conocida. Las nuevas restricciones impuestas a la orientación de los contigs permiten la colocación de secuencias altamente repetidas en el genoma. Si un extremo de lectura tiene una secuencia repetitiva, siempre que su par de pareja esté ubicado dentro de un contig, se conoce su ubicación. [7] Las brechas restantes entre los contigs en los andamios pueden luego secuenciarse mediante una variedad de métodos, incluyendo amplificación por PCR seguida de secuenciación (para brechas más pequeñas) y métodos de clonación BAC seguidos de secuenciación para brechas más grandes. [2]
BAC contigs [ editar ]
Contig también puede referirse a los clones superpuestos que forman un mapa físico de un cromosoma cuando se utiliza la estrategia de secuenciación jerárquica o de arriba hacia abajo . [1] En este método de secuenciación, un mapa de baja resoluciónse realiza antes de la secuenciación con el fin de proporcionar un marco para guiar el ensamblaje posterior de las lecturas de secuencia del genoma. Este mapa identifica las posiciones relativas y la superposición de los clones utilizados para la secuenciación. Los conjuntos de clones superpuestos que forman un tramo contiguo de ADN se llaman contigs; el número mínimo de clones que forman un contig que cubre todo el cromosoma comprende la ruta de mosaico que se utiliza para la secuenciación. Una vez que se ha seleccionado un trazado de mosaico, sus BAC componentes se cortan en fragmentos más pequeños y se secuencian. Contigs, por lo tanto, proporciona el marco para la secuencia jerárquica. [3] El montaje de un mapa contig implica varios pasos. Primero, el ADN se divide en pedazos más grandes (50–200 kb), que se clonan en BAC o PAC para formar una biblioteca de BAC. Dado que estos clones deben cubrir todo el genoma / cromosoma, en teoría es posible ensamblar un contig de BAC que cubra todo el cromosoma. [1] Larealidad, sin embargo, no siempre es ideal. Los huecos a menudo permanecen, y el primer resultado suele ser un andamio, que consta de contigs y huecos, que cubre la región del mapa. [1] Las brechas entre los contigs se pueden cerrar mediante varios métodos que se describen a continuación.
Construcción de contigs BAC [ editar ]
Los contigs de BAC se construyen alineando regiones de BAC de superposición conocida a través de una variedad de métodos. Una estrategia común es utilizar el mapeo de contenido del sitio etiquetado en secuencia(STS) para detectar sitios de ADN únicos en común entre BAC. El grado de superposición se estima aproximadamente por el número de marcadores STS en común entre dos clones, con más marcadores en común que significan una mayor superposición. [2] Debido a que esta estrategia proporciona solo una estimación muy aproximada de la superposición, a menudo se usa el análisis de fragmentos de resumen de restricción , que proporciona una medición más precisa de la superposición de clones. [2] En esta estrategia, los clones se tratan con una o dos enzimas de restricción y los fragmentos resultantes se separan mediante electroforesis en gel. Si son dos clones, es probable que tengan sitios de restricción en común y, por lo tanto, compartirán varios fragmentos. [3] Debido a que se conoce el número de fragmentos en común y la longitud de estos fragmentos (la longitud se juzga en comparación con un estándar de tamaño), el grado de superposición se puede deducir con un alto grado de precisión.
Brechas entre contigs [ editar ]
Las brechas a menudo permanecen después de la construcción inicial del contig BAC. Estas brechas se producen si la biblioteca del Cromosoma Artificial Bacteriano (BAC) analizada tiene una complejidad baja, lo que significa que no contiene un alto número de sitios de restricción o STS, o si ciertas regiones fueron menos estables en los hosts de clonación y, por lo tanto, están subrepresentadas en la biblioteca. [1] Si los espacios entre contigs continúan después de haberse realizado el mapeo de puntos de referencia de STS y las huellas dactilares de restricción, se puede utilizar la secuenciación de los extremos de contig para cerrar estos espacios. Esta estrategia de secuenciación final crea esencialmente un STS novedoso con el que se pueden examinar los otros contigs. Alternativamente, la secuencia final de un contig se puede usar como un cebador para el recorrido del cebador a través del espacio.
(Redirigido desde Copiar variación de número )
La variación en el número de copias ( CNV ) es un fenómeno en el que se repiten secciones del genoma y el número de repeticiones en el genoma varía según los individuos en la población humana. [1] La variación del número de copias es un tipo de variación estructural : específicamente, es un tipo de evento de duplicación o eliminación que afecta a un número considerable de pares de bases. [2] Sin embargo, tenga en cuenta que aunque la investigación en genómica moderna se centra principalmente en los genomas humanos, también ocurren variaciones en el número de copias en una variedad de otros organismos, incluidos E. coli y S. cerevisiae . [3] [4] Investigaciones recientes indican que aproximadamente dos tercios de todo el genoma humano se compone de repeticiones [5] y que el 4.8–9.5% del genoma humano se puede clasificar como variaciones en el número de copias. [6] En los mamíferos , las variaciones en el número de copias desempeñan un papel importante en la generación de la variación necesaria en la población, así como en el fenotipo de la enfermedad. [1]
Las variaciones en el número de copias generalmente se pueden clasificar en dos grupos principales: repeticiones cortas y repeticiones largas. Sin embargo, no hay límites claros entre los dos grupos y la clasificación depende de la naturaleza de los lugares de interés. Las repeticiones cortas incluyen principalmente repeticiones bi-nucleotídicas(dos nucleótidos repetitivas, por ejemplo, ACACAC ...) y repeticiones tri-nucleotídicas. Las repeticiones largas incluyen repeticiones de genes completos. Esta clasificación basada en el tamaño de la repetición es el tipo más obvio de clasificación, ya que el tamaño es un factor importante al examinar los tipos de mecanismos que probablemente dieron lugar a las repeticiones, [7] por lo tanto, los efectos probables de estas repeticiones en el fenotipo.
Tipos y reordenamientos cromosómicos [ editar ]
Uno de los ejemplos más conocidos de una variación del número de copias cortas es la repetición tri-nucleotídica de los pares de bases CAG en el gen de Huntingtin , el gen responsable del trastorno neurológico de la enfermedad de Huntington . [8] Para este caso en particular, una vez que el trinucleótido CAG se repita más de 36 veces, la enfermedad de Huntington probablemente se desarrollará en el individuo y probablemente sea heredada por su descendencia. [8] El número de repeticiones del trinucleótido CAG se correlaciona con la edad de inicio de la enfermedad de Huntington. [9] A menudo se piensa que estos tipos de repeticiones cortas se deben a errores en la actividad de la polimerasa durante la replicaciónincluido el deslizamiento de la polimerasa, el cambio de plantilla y el cambio de horquilla, que se analizarán en detalle más adelante. El pequeño tamaño de repetición de estas variaciones en el número de copias se presta a errores en la polimerasa, ya que estas regiones repetidas son propensas al mal reconocimiento por parte de la polimerasa y las regiones replicadas pueden replicarse nuevamente, lo que lleva a copias adicionales de la repetición. [10] Además, si estas repeticiones tri-nucleotídicas están en el mismo marco de lectura en la parte codificante de un gen, puede conducir a una cadena larga del mismo aminoácido , posiblemente creando agregados de proteínas en la célula, [9] y si estas repeticiones cortas caen en la parte no codificante del gen, puede afectarExpresión y regulación de genes . Por otro lado, un número variable de repeticiones de genes completos se identifica con menos frecuencia en el genoma. Un ejemplo de una repetición de un gen completo es el gen de la alfa-amilasa 1 (AMY1) que codifica la alfa-amilasa que tiene una variación significativa en el número de copias entre diferentes poblaciones con diferentes dietas. [11] Aunque el mecanismo específico que permite que el gen AMY1 aumente o disminuya su número de copias sigue siendo un tema de debate, algunas hipótesis sugieren que la unión final no homólogao la unión final mediada por microhomología probablemente sean responsables de estos genes completos. repite [11]La repetición de genes completos tiene efectos inmediatos en la expresión de ese gen en particular, y el hecho de que la variación en el número de copias del gen AMY1 se haya relacionado con la dieta es un ejemplo notable de la reciente adaptación evolutiva humana. [11] Aunque estos son los grupos generales en los que se agrupan las variaciones en el número de copias, el número exacto de variaciones en el número de copias de los pares de bases depende de los loci específicos de interés. Actualmente, utilizando datos de todas las variaciones del número de copias informadas, el tamaño medio de la variante del número de copias es de alrededor de 118 kb, y la mediana es de 18 kb. [12]
En términos de la arquitectura estructural de las variaciones en el número de copias, la investigación ha sugerido y definido regiones de punto de acceso en el genoma donde las variaciones en el número de copias son cuatro veces más enriquecidas. [2] Estas regiones de punto de acceso se definieron como regiones que contienen repeticiones largas que son similares al 90-100%, conocidas como duplicaciones segmentarias en tándem o intercaladas y, lo que es más importante, estas regiones de punto de acceso tienen una mayor tasa de reordenación cromosómica . [2] Se pensó que estos reordenamientos cromosómicos a gran escala dan lugar a variaciones normales y enfermedades genéticas , incluidas variaciones en el número de copias. [1]Además, estas zonas de variación en el número de copias son consistentes en muchas poblaciones de diferentes continentes, lo que implica que estas zonas fueron adquiridas independientemente por todas las poblaciones y se transmitieron a través de generaciones, o se adquirieron en la evolución humana temprana antes de que las poblaciones se dividieran, esto último parece más como. [1] Por último, los sesgos espaciales de la ubicación en la que las variaciones en el número de copias están más densamente distribuidas no parecen ocurrir en el genoma. [1]Aunque originalmente se detectó mediante hibridación in situ fluorescente y análisis microsatélite, lasrepeticiones del número de copias se localizan en regiones altamente repetitivas como los telómeros , los centrómeros.y heterocromatina , [13] estudios recientes sobre el genoma han concluido lo contrario. [2] Es decir, las regiones subteloméricas y las regiones pericentroméricas son donde se encuentran la mayoría de los puntos calientes de reordenamiento cromosómico, y no hay un aumento considerable en las variaciones en el número de copias en esa región. [2] Además, estas regiones de hotspots de reordenamiento cromosómico no tienen números genéticos disminuidos, nuevamente, lo que implica que hay un sesgo espacial mínimo de la ubicación genómica de las variaciones en el número de copias. [2]
Detección e identificación [ editar ]
Se pensó inicialmente que la variación en el número de copias ocupaba una porción extremadamente pequeña e insignificante del genoma a través de observaciones citogenéticas . [14] Las variaciones en el número de copias se asociaron generalmente solo con pequeñas repeticiones en tándem o trastornos genéticos específicos, [15]por lo tanto, las variaciones en el número de copias inicialmente solo se examinaron en términos de loci específicos. Sin embargo, los avances en la última década llevaron a un número cada vez mayor de formas altamente precisas de identificar y estudiar las variaciones en el número de copias, una de las cuales es el estudio de asociación de genoma completo, que permite localizar e identificar variaciones en los números de copias en general. el genoma Las variaciones en el número de copias se estudiaron originalmente mediante técnicas citogenéticas, que son técnicas que permiten observar la estructura física del cromosoma. [14] Una de estas técnicas es la hibridación in situ fluorescente (FISH), que consiste en insertar sondas fluorescentes que requieren un alto grado de complementariedad en el genoma para la unión. [12] La hibridación genómica comparativatambién se usó comúnmente para detectar variaciones en el número de copias por visualización fluorófora y luego comparando la longitud de los cromosomas. [12] Un inconveniente importante de estas técnicas tempranas es que la resolución genómica es relativamente baja y solo se pueden detectar repeticiones grandes, como las repeticiones genéticas completas.
Los recientes avances en biotecnología dieron lugar a muchas técnicas importantes que tienen una resolución genómica extremadamente alta y, como resultado, se ha informado de un número creciente de variaciones en el número de copias en el genoma. [12] Uno de estos avances implica el uso de un arreglo de cromosomas artificiales bacterianos (BAC) con alrededor de 1 megabase de intervalos a lo largo de todo el gen, [16] Los BAC también pueden detectar variaciones en el número de copias en zonas activas de reorganización, lo que permite la detección de 119 variaciones novedosas de números de copias . [2] A lo largo de la última década, la secuenciación genómica de alto rendimiento ha revolucionado el campo de la genómica humana e in silico.Se han realizado estudios para detectar variaciones en el número de copias en el genoma. [2] Las secuencias de referencia se han comparado con otras secuencias de interés utilizando fosmids controlando estrictamente que los clones de fosmid sean de 40 kb. [17] Las lecturas de fin de secuenciado proporcionarían información adecuada para alinear la secuencia de referencia con la secuencia de interés, y cualquier desalineación es fácilmente perceptible, por lo que se concluye que existen variaciones en el número de copias dentro de esa región del clon. [17] Este tipo de técnica de detección ofrece una alta resolución genómica y una ubicación precisa de la repetición en el genoma, y también puede detectar otros tipos de variación estructural, como las inversiones. [12] Además, otra forma de detectar la variación en el número de copias que puede garantizar una alta resolución genómica es mediante el uso de polimorfismos de un solo nucleótido (SNP). [12] Desde que comenzó el proyecto International HapMap , se han secuenciado y localizado los SNP comunes que se producen entre cuatro poblaciones diferentes de diferentes continentes. Debido a la abundancia de los datos SNP humanos, la dirección de detección de la variación del número de copias ha cambiado para utilizar estos SNP. [18] Confiando en el hecho de que la recombinación humana es relativamente rara y que muchos eventos de recombinación ocurren en regiones específicas del genoma conocidas como puntos calientes de recombinación, desequilibrio de ligamientoSe puede utilizar para identificar variaciones en el número de copias. [18] Se han realizado esfuerzos para asociar las variaciones del número de copias con los SNP de haplotipos específicos mediante el análisis del desequilibrio de enlace, utilizando estas asociaciones, uno es capaz de reconocer las variaciones del número de copias en el genoma utilizando SNP como marcadores. [18] Una desventaja de este método es que debido a que los SNP en el International HapMap no están optimizados para detectar variaciones en el número de copias, los datos están orientados hacia variaciones grandes en el número de copias. [12] La secuenciación de próxima generación también se ha usado recientemente para detectar variaciones en el número de copias con altas resoluciones genómicas. Usando la secuenciación de armas de fuego de todo el genomadatos, se han desarrollado ensayos para detectar e identificar con precisión las regiones de duplicaciones. [19]Por otro lado, es muy difícil detectar las CNV en la secuenciación dirigida porque es extremadamente improbable que se produzcan puntos de interrupción dentro del escaso número de regiones capturadas por un panel genético. Por lo tanto, es poco probable que se encuentren lecturas de clips suaves y lecturas discordantes en la secuenciación dirigida. En promedio, hay aproximadamente 1 SNP por 800 bit / s, por lo que en una región lo suficientemente larga, se pueden usar frecuencias de alelo B (BAF) para detectar cambios en el número de copias. Sin embargo, en la secuenciación dirigida, no hay suficientes variantes heterocigotas dentro de una región corta para detectar desviaciones del 50% esperado de BAF. Por último, los microarrays de alta resolución que tienen sondas de número de copias, así como las sondas SNP, son el estándar de oro para detectar cambios en el número de copias de hasta 50 kbs con cobertura del genoma completo. [20] Detectar, identificar y categorizar con precisión las variaciones en el número de copias es extremadamente importante debido a las complicaciones que conlleva la secuenciación del ADN. Tradicionalmente, la secuenciación de ADN se basaba en gran medida en la secuenciación de lecturas cortas de un genoma grande y en el uso de regiones superpuestas de las lecturas para combinar las lecturas cortas para formar lecturas más largas. Esto se mapeará finalmente para dar la secuencia del genoma completo. Sin embargo, los problemas relacionados con las variaciones en el número de copias surgen al vincular las regiones superpuestas entre sí. Por definición, la variación del número de copias es una región del genoma duplicada un número variable de veces en la población y debido a la gran variación entre el número de veces que se duplican partes del genoma, cuando se mapean secuencias superpuestas, no queda claro si una región es una región superpuesta o duplicada. Con todos los desafíos que enfrenta la secuenciación para detectar variaciones en el número de copias, los microarrays de alta resolución son la tecnología de elección.
Mecanismo molecular [ editar ]
Hay dos tipos principales de mecanismos moleculares para la formación de variaciones en el número de copias: basadas homólogas y no homólogas. [7] Aunque se han presentado muchas sugerencias, la mayoría de estas teorías son especulaciones y conjeturas. No hay evidencia concluyente que relacione una variación específica del número de copias con un mecanismo específico.
Una de las teorías mejor reconocidas que conduce a variaciones en el número de copias, así como a deleciones e inversiones, es la recombinación homóloga no alélica . [21] Durante la recombinación meiótica , los cromosomas homólogos se emparejan y forman dos roturas bicatenarias terminadas que conducen a las uniones de Holliday . Sin embargo, en el mecanismo aberrante, durante la formación de las uniones de Holliday, las roturas de doble cadena están desalineadas y el cruceAterriza en posiciones no alélicas en el mismo cromosoma. Cuando se resuelve la unión de Holliday, el evento de cruce desigual permite la transferencia de material genético entre los dos cromosomas homólogos, y como resultado, se repite una porción del ADN en ambos homólogos. [21] Dado que las regiones repetidas ya no se segregan de manera independiente , la región duplicada del cromosoma se hereda. Otro tipo de mecanismo basado en recombinación homóloga que puede conducir a una variación en el número de copias se conoce como replicación inducida por ruptura. [22] Cuando se produce inesperadamente una ruptura de doble cadena en el genoma, la célula activa las vías que median la reparación de la ruptura. [22]Los errores en la reparación de la rotura, similares a la recombinación homóloga no alélica, pueden llevar a un aumento en el número de copias de una región particular del genoma. Durante la reparación de una rotura de doble cadena, el extremo roto puede invadir su cromosoma homólogo en lugar de volver a unirse a la cadena original. [22] Al igual que en el mecanismo de recombinación homóloga no alélica, una copia adicional de una región particular se transfiere a otro cromosoma, lo que lleva a un evento de duplicación. Además, se encuentra que las proteínas cohesinas ayudan en el sistema de reparación de roturas de doble cadena a través de la sujeción de los dos extremos en estrecha proximidad, lo que evita la invasión intercromosómica de los extremos. [23] Si por alguna razón, como la activación de ARN ribosomalSi la actividad de la cohesina se ve afectada, puede haber un aumento local en los errores de reparación de la rotura de doble cadena. [23]
La otra clase de posibles mecanismos que se hipotetizan para conducir a variaciones en el número de copias no se basa en homólogos. Para distinguir entre esto y los mecanismos basados en homólogos, uno debe entender el concepto de homología. El emparejamiento homólogo de cromosomas involucra el uso de cadenas de ADN que son muy similares entre sí (~ 97%) y estas cadenas deben ser más largas que una cierta longitud para evitar pares cortos pero muy similares. [7] Los emparejamientos no homólogos, por otro lado, se basan solo en unos pocos pares de bases de similitud entre dos cadenas, por lo tanto, es posible que los materiales genéticos se intercambien o se dupliquen en el proceso de reparaciones de doble hebra no homólogas. [7]
Un tipo de mecanismo basado no homólogo es la unión de extremo no homóloga o el mecanismo de unión de extremo de micro-homología . [24] Estos mecanismos también están involucrados en la reparación de roturas de doble cadena pero no requieren homología o micro-homología limitada. [7] Cuando estas hebras se reparan, a menudo se agregan pequeñas eliminaciones o inserciones en la hebra reparada. Es posible que los retrotransposones se inserten en el genoma a través de este sistema de reparación. [24]Si los retrotransposones se insertan en una posición no alélica en el cromosoma, la recombinación meiótica puede hacer que la inserción se recombine en la misma cadena que una copia ya existente de la misma región. Otro mecanismo es el ciclo puente de rotura-fusión que involucra cromátidas hermanas que perdieron su región telomérica debido a roturas de doble cadena. [25] Se propone que estas cromátidas hermanas se fusionen para formar un cromosoma dicéntrico y luego se segreguen en dos núcleos diferentes. [25] Debido a que separar el cromosoma dicéntrico causa una ruptura de doble cadena, las regiones finales pueden fusionarse con otras rupturas de doble cadena y repetir el ciclo. [25]La fusión de dos cromátidas hermanas puede causar una duplicación invertida y cuando estos eventos se repiten a lo largo del ciclo, la región invertida se repetirá, lo que lleva a un aumento en el número de copias. [25] El último mecanismo que puede llevar a variaciones en el número de copias es el deslizamiento de la polimerasa, que también se conoce como cambio de plantilla. [26] Durante la replicación normal del ADN, se requiere que la polimerasa en la hebra retrasada libere y vuelva a sujetar la región de replicación continuamente. [26]Cuando ya existen repeticiones a pequeña escala en la secuencia de ADN, la polimerasa se puede "confundir" cuando se vuelve a sujetar para continuar la replicación y en lugar de sujetarse a los pares de bases correctos, puede desplazar algunos pares de bases y replicar una parte de los repetidos región de nuevo. [26]Tenga en cuenta que aunque esto se ha observado experimentalmente y es un mecanismo ampliamente aceptado, las interacciones moleculares que llevaron a este error siguen siendo desconocidas. Además, debido a que este tipo de mecanismo requiere que la polimerasa salte alrededor de la cadena de ADN y es poco probable que la polimerasa pueda volver a sujetarse en otro locus, algunas kilobases separadas, por lo tanto, esto es más aplicable a repeticiones cortas como bi-nucleótido o tri -Nucleótido se repite. [27]
La alfa-amilasa de genes [ editar ]
La amilasa es una enzima en la saliva que es responsable de la descomposición del almidón en monosacáridos , y un tipo de amilasa está codificado por el gen de la alfa-amilasa (AMY1). [11] El locus AMY1, así como la enzima amilasa, es uno de los genes más ampliamente estudiados y secuenciados en el genoma humano. Sus homólogos también se encuentran en otros primates y, por lo tanto, es probable que el gen AMY1 del primate sea ancestral al gen AMY1 humano y se haya adaptado al principio de la evolución del primate. [11] AMY1 es uno de los genes mejor estudiados que tiene una amplia gama de números variables de copias en diferentes poblaciones humanas. [11]El gen AMY1 también es uno de los pocos genes estudiados que mostró evidencia convincente que correlaciona su función proteica con su número de copias. [11] Se sabe que el número de copias altera la transcripción así como los niveles de traducción de un gen en particular, sin embargo, las investigaciones han demostrado que la relación entre los niveles de proteína y el número de copias es variable. [28] En los genes AMY1 de los estadounidenses europeos, se encuentra que la concentración de amilasa salival está estrechamente relacionada con el número de copias del gen AMY1. [11] Como resultado, se planteó la hipótesis de que el número de copias del gen AMY1 está estrechamente relacionado con su función proteica, que es digerir el almidón. [11]
Se ha encontrado que el número de copias del gen AMY1 está correlacionado con diferentes niveles de almidón en las dietas de diferentes poblaciones. [11] Se clasificaron 8 poblaciones de diferentes continentes en dietas altas en almidón y dietas bajas en almidón y se visualizó su número de copia del gen AMY1 utilizando FISH y qPCR de alta resolución . [11] Se encontró que las poblaciones de dietas con alto contenido de almidón que se componen de las poblaciones japonesa, Hadza y europea de los Estados Unidos tenían un número de copias AMY1 promedio significativamente más alto (2 veces mayor) que las poblaciones de dietas con bajo contenido de almidón, incluidas Biaka, Mbuti, Datog, Poblaciones Yakut. [11]Se planteó la hipótesis de que los niveles de almidón en la dieta habitual, el sustrato para AMY1, pueden afectar directamente el número de copias del gen AMY1. [11] Dado que se llegó a la conclusión de que el número de copias de AMY1 está directamente relacionado con la amilasa salival, [11] cuanto más almidón está presente en la dieta diaria de la población, más evolutivamente favorable es tener múltiples copias del gen AMY1. El gen AMY1 fue el primer gen que proporcionó pruebas sólidas de la evolución a nivel de genética molecular . [28] Además, mediante el uso de hibridación genómica comparativa , se compararon las variaciones en el número de copias de los genomas completos de la población japonesa con la de la población Yakut. [11]Se encontró que la variación del número de copias del gen AMY1 era significativamente diferente de la variación del número de copias en otros genes o regiones del genoma, lo que sugiere que el gen AMY1 estaba bajo una fuerte presión selectiva que tuvo poca o ninguna influencia en la otra copia. variaciones de números. [11] Finalmente, la variabilidad de la longitud de 783 microsatélites entre las dos poblaciones se comparó con la variabilidad del número de copias del gen AMY1. Se encontró que el rango del número de copias del gen AMY1 era mayor que el de más del 97% de los microsatélites examinados. [11] Esto implica que la selección natural desempeñó un papel considerable en la configuración del número promedio de genes AMY1 en estas dos poblaciones. [11] Sin embargo, como solo se estudiaron 6 poblaciones, es importante considerar la posibilidad de que haya otros factores en su dieta o cultura que influyan en el número de copias de AMY1 que no sea el almidón.
Aunque no está claro cuándo comenzó a aumentar el número de copias del gen AMY1, se sabe y confirma que el gen AMY1 existía en primates primitivos. Se encontró que los chimpancés , los parientes evolutivos más cercanos a los humanos, tienen 2 copias diploides del gen AMY1 que es idéntica en longitud al gen AMY1 humano, [11] que es significativamente menor que la de los humanos. Por otro lado, se encontró que los bonobos , también un pariente cercano de los humanos modernos, tienen más de 2 copias diploides del gen AMY1. [11] No obstante, los genes bonobo AMY1 fueron secuenciados y analizados, y se encontró que las secuencias codificantes de los genes AMY1 estaban alteradas, lo que puede conducir a la producción de amilasa salival disfuncional.[11] Se puede inferir de los resultados que el aumento en el número de copias de bonobo AMY1 probablemente no esté correlacionado con la cantidad de almidón en su dieta. Se planteó además la hipótesis de que el aumento en el número de copias comenzó recientemente durante laevolucióntemprana de los homínidos, ya que ninguno de los grandes simios tenía más de dos copias del gen AMY1 que producía proteína funcional. [11] Además, se especuló que el aumento en el número de copias AMY1 comenzó hace unos 20,000 años cuando los humanos pasaron de unestilo de vida de cazadores-recolectoresasociedades agrícolas , que también fue cuando los humanos dependían en gran medida de los vegetales de raíz con alto contenido de almidón. [11]Esta hipótesis, aunque lógica, carece de pruebas experimentales debido a las dificultades para recopilar información sobre el cambio de las dietas humanas, especialmente en las hortalizas de raíz con alto contenido de almidón, ya que no se pueden observar ni probar directamente. Los recientes avances en la secuenciación del ADN han permitido a los investigadores secuenciar el ADN más antiguo, como el de los neandertales, con un cierto grado de precisión. Tal vez la secuenciación del ADN de Neanderthal puede proporcionar un marcador de tiempo en el que se incrementa el número de copias del gen AMY1 y ofrece información sobre la dieta humana y la evolución de los genes.
Actualmente se desconoce qué mecanismo dio lugar a la duplicación inicial del gen de la amilasa, y puede implicar que la inserción de las secuencias retrovirales se debió a una unión terminal no homóloga, lo que causó la duplicación del gen AMY1. [29] Sin embargo, actualmente no hay evidencia que apoye esta teoría y, por lo tanto, esta hipótesis sigue siendo conjetura. El origen reciente del gen AMY1 de múltiples copias implica que, dependiendo del entorno, el número de copias del gen AMY1 puede aumentar y disminuir muy rápidamente en relación con los genes que no interactúan tan directamente con el entorno. [28] El gen AMY1 es un excelente ejemplo de cómo la dosificación genéticaAfecta la supervivencia de un organismo en un entorno determinado. Las múltiples copias del gen AMY1 dan a los que dependen más de las dietas altas en almidón una ventaja evolutiva, por lo tanto, el alto número de copias del gen persiste en la población. [28]
Las células del cerebro [ editar ]
Entre las neuronas en el cerebro humano , son frecuentes las variantes de número de copia derivadas somáticamente. [30] Las variantes del número de copias muestran una gran variabilidad (9 a 100% de las neuronas cerebrales en diferentes estudios). La mayoría de las alteraciones tienen un tamaño de entre 2 y 10 Mb, con eliminaciones que superan en número a las amplificaciones. [30] Las variantes del número de copias parecen ser más altas en las células del cerebro que en otros tipos de células. [30] Una fuente probable de variación en el número de copias es la reparación incorrecta del daño en el ADN .
Las familias de genes, y la selección natural [ editar ]
Recientemente, hubo una discusión que relacionó las variaciones en el número de copias con las familias de genes . Las familias de genes se definen como un conjunto de genes relacionados que tienen funciones similares, pero tienen diferencias temporales o espaciales menores y estos genes probablemente se derivan de un gen ancestral . [28] La razón principal por la que las variaciones en el número de copias están relacionadas con las familias de genes es que existe la posibilidad de que los genes de una familia puedan derivar de un gen ancestral que se duplicó en copias diferentes. [28] Las mutaciones se acumulan a través del tiempo en los genes y con la selección natural.actuando sobre los genes, algunas mutaciones conducen a ventajas medioambientales que permiten heredar esos genes y, finalmente, separar las familias de genes. Un ejemplo de una familia de genes que puede haber sido creada debido a variaciones en el número de copias es la familia de genes globina . La familia de genes globina es una red elaborada de genes que consta de genes de globina alfa y beta, que incluyen genes que se expresan tanto en embriones como en adultos, así como en pseudogenes . [31] Estos genes de globina en la familia de las globinas están bien conservados y solo difieren en una pequeña porción del gen, lo que indica que se derivaron de un gen ancestral común, tal vez debido a la duplicación del gen de la globina inicial. [31]
Las investigaciones han demostrado que las variaciones en el número de copias son significativamente más comunes en los genes que codifican proteínas que interactúan directamente con el medio ambiente que las proteínas que participan en actividades celulares básicas. [32] Se sugirió que el efecto de dosificación génica que acompaña a la variación del número de copias puede llevar a efectos perjudiciales si se interrumpen las funciones celulares esenciales, por lo tanto, las proteínas involucradas en las vías celulares se someten a una fuerte selección purificadora . [32]Además, las proteínas funcionan juntas e interactúan con proteínas de otras vías, por lo tanto, es importante ver los efectos de la selección natural en las vías biomoleculares en lugar de las proteínas individuales. Dicho esto, se encontró que las proteínas en la periferia de la ruta se enriquecen en las variaciones del número de copias, mientras que las proteínas en el centro de las rutas se agotan en las variaciones del número de copias. [33] Se explicó que las proteínas en la periferia de la ruta interactúan con menos proteínas y, por lo tanto, un cambio en la dosis de proteína afectada por un cambio en el número de copias puede tener un efecto menor en el resultado general de la ruta celular. [33]
En los últimos años, los investigadores parecen haber cambiado su enfoque de la detección, localización y secuenciación de las variaciones en el número de copias a análisis en profundidad del papel de estas variaciones en el genoma humano y en la naturaleza en general. Se necesita evidencia para validar aún más la relación entre las variaciones en el número de copias y las familias de genes, así como el papel que juega la selección natural en la configuración de estas relaciones y cambios. Además, los investigadores también pretenden dilucidar los mecanismos moleculares implicados en las variaciones en el número de copias, ya que pueden revelar información esencial sobre las variaciones estructurales en general. Dando un paso atrás, el área de variación estructural en el genoma humano parece ser un tema de investigación en rápido crecimiento. Estos datos de investigación no solo pueden proporcionar evidencia adicional para la evolución y la selección natural.
No hay comentarios:
Publicar un comentario