miércoles, 24 de junio de 2015

Evolución

BLOSUM (BLOcks of Amino Acid SUbstitution Matrix, o matriz de sustitución de bloques de aminoácidos) es una matriz de sustituciónutilizada para el alineamiento de secuencias de proteínas. BLOSUM se usa para puntuar alineamientos entre secuencias de proteínas evolutivamente divergentes. Se basa en alineamientos locales, y se introdujo en 1992 por primera vez en un artículo de Henikoff y Henikoff.1 Recorrieron la base de datos BLOCKS analizando regiones muy conservadas de familias de proteínas (sin huecos en el alineamiento de secuencias) y comprobaron las frecuencias relativas de aparición de los aminoácidos y las probabilidades de sustitución entre ellos. Seguidamente calcularon una puntuación delog-probabilidad para cada una de las 210 posibles sustituciones de los 20 aminoácidos estándar. Todas las BLOSUM se basan en alineamientos observados, y no son extrapoladas de comparaciones de proteínas cercanamente relacionadas (como es el caso de las matrices PAM, obtenidas al multiplicar por sí misma un determinado número de veces una matriz inicial).- ..............................................................................:https://es.wikipedia.org/w/index.php?title=Especial:Libro&bookcmd=download&collection_id=df86a043d2e0f4860b4f070c16277fd5ae542bee&writer=rdf2latex&return_to=BLOSUM

BLOSUM (BLOcks SUbstitution Matrix)

Las matrices de puntuación BLOSUM se diferencian de las PAM porque:
  • se generan a partir un número mucho mayor de secuencias de partida (pertenecientes a más de 500 familias de proteínas)
  • el grado de divergencia entre las secuencias es mucho mayor
  • el tipo de análisis realizado es distinto (modelo evolutivo: star-tree)
Las proteínas que pertenecen a una misma familia poseen funciones bioquímicas similares y presentan un patrón de aa conservados que es característico para esa función. A partir del alineamiento de las secuencias pertenecientes a una familia se pueden encontrar regiones locales que contienen a estos aa conservados y que no presentan huecos. Estas regiones se denominan bloques. Los bloques constituyen una característica distintiva de la familia de proteínas de donde proceden y pueden ser utilizados para buscar nuevos miembros dentro de una base de datos.
La matriz BLOSUM62 es una de las más utilizadas para puntuar el alineamiento de secuencias proteicas. Los valores de la matriz se basan en las sustituciones de aminoácidos (aa) observadas en aproximadamente 2000 bloques (patrones de aa conservados y que no presentan huecos) pertenecientes a más de 500 familias de proteínas almacenadas en la base de datos PROSITE.
Steven y Jorja Henikoff examinaron las familias de proteínas en busca de los patrones de aa sin huecos (bloques) característicos de cada una. Para ello utilizaron el programa MOTIF, capaz de localizar patrones del tipo aa1-d1-aa2-d2-a3, donde aa1 y aason aa conservados y d1 y d2 son segmentos intermedios de la secuencia, con una longitud de hasta 24 aa y presentes en todas las secuencias de la familia. Posteriormente, con el programa PROTOMAT agruparon los patrones iniciales en patrones más largos (y sin huecos), cuya longitud podía estar comprendida entre 3 y 60 aa. Como los bloques estaban presentes en todos los miembros de cada familia, podían ser utilizados para realizar búsquedas en las bases de datos para identificar a nuevos miembros de cada familia.
Una vez alineados los bloques, las columnas indican el tipo se sustituciones de aa que pueden ocurrir. Se contabilizan las sustituciones de aa observadas en cada columna y se les asigna una puntuación que aparece recogida en la matriz de puntuación BLOSUM. Cada entrada de la matriz es el logaritmo de la probabilidad relativa (log odds). La probabilidad relativa es el cociente entre la frecuencia observada para una determinada sustitución de aa y la frecuencia que cabría esperar por simple azar.
El cómputo de las sustituciones de aa observadas en los bloques puede llevar a sobrerrepresentar las sustituciones que tienen lugar en los miembros más estrechamente relacionados de cada familia. Para reducir esta contribución predominante, antes de realizar el cómputo de sustituciones se agrupan las secuencias más parecidas de cada bloque en una sóla y las sustituciones observadas en estas secuencias agrupadas se contabilizan de forma ponderada. Así,
  • si se agrupan las secuencias con un 60% de parecido se genera la matriz BLOSUM60
  • si se agrupan las secuencias con un 80% de parecido se genera la matriz BLOSUM80


BLOSUM62 sustitución de la matriz

 CSTPLaGNDEQHRKMYOLVFYW
C
9
-1
-1
-3
0
-3
-3
-3
-4
-3
-3
-3
-3
-1
-1
-1
-1
-2
-2
-2
S
-1
4
1
-1
1
0
1
0
0
0
-1
-1
0
-1
-2
-2
-2
-2
-2
-3
T
-1
1
4
1
-1
1
0
1
0
0
0
-1
0
-1
-2
-2
-2
-2
-2
-3
P
-3
-1
1
7
-1
-2
-1
-1
-1
-1
-2
-2
-1
-2
-3
-3
-2
-4
-3
-4
La
0
1
-1
-1
4
0
-1
-2
-1
-1
-2
-1
-1
-1
-1
-1
-2
-2
-2
-3
G
-3
0
1
-2
0
6
-2
-1
-2
-2
-2
-2
-2
-3
-4
-4
0
-3
-3
-2
N
-3
1
0
-2
-2
0
6
1
0
0
-1
0
0
-2
-3
-3
-3
-3
-2
-4
D
-3
0
1
-1
-2
-1
1
6
2
0
-1
-2
-1
-3
-3
-4
-3
-3
-3
-4
E
-4
0
0
-1
-1
-2
0
2
5
2
0
0
1
-2
-3
-3
-3
-3
-2
-3
Q
-3
0
0
-1
-1
-2
0
0
2
5
0
1
1
0
-3
-2
-2
-3
-1
-2
H
-3
-1
0
-2
-2
-2
1
1
0
0
8
0
-1
-2
-3
-3
-2
-1
2
-2
R
-3
-1
-1
-2
-1
-2
0
-2
0
1
0
5
2
-1
-3
-2
-3
-3
-2
-3
K
-3
0
0
-1
-1
-2
0
-1
1
1
-1
2
5
-1
-3
-2
-3
-3
-2
-3
M
-1
-1
-1
-2
-1
-3
-2
-3
-2
0
-2
-1
-1
5
1
2
-2
0
-1
-1
YO
-1
-2
-2
-3
-1
-4
-3
-3
-3
-3
-3
-3
-3
1
4
2
1
0
-1
-3
L
-1
-2
-2
-3
-1
-4
-3
-4
-3
-2
-3
-2
-2
2
2
4
3
0
-1
-2
V
-1
-2
-2
-2
0
-3
-3
-3
-2
-2
-3
-3
-2
1
3
1
4
-1
-1
-3
F
-2
-2
-2
-4
-2
-3
-3
-3
-3
-3
-1
-3
-3
0
0
0
-1
6
3
1
Y
-2
-2
-2
-3
-2
-3
-2
-3
-2
-1
2
-2
-2
-1
-1
-1
-1
3
7
2
W
-2
-3
-3
-4
-3
-2
-4
-4
-3
-2
-2
-3
-3
-1
-3
-2
-3
1
2
11

Esta tabla muestra las sustituciones observadas se encuentran en una muestra amplia de los segmentos alineados de polipéptidos. El método preciso de cálculo se hace un poco abstrusa, sino una ilustración puede desmitificar algunos aspectos.
El procedimiento para calcular una matriz BLOSUM se basa en un método de estimación de probabilidad de la ocurrencia de cada posible sustitución por pares. Un ejemplo muy simple de un cálculo de este tipo para un segmento muy corto se da a continuación para ilustrar el proceso. Los polipéptidos se alinearon inicialmente utilizando una matriz de puntuación de identidad. Sólo bloques alineados se utilizan para calcular los BLOSUMs.
Suponga que los siguientes 5 proteínas fueron alineados de la siguiente manera:
AVAAA
AVAAA
AVAAA
AVLAA
VVAAL
En primer lugar, tenemos que decidir si cada secuencia debe contar por igual en este proceso. Si esta base de datos fuera una representación global, que deberían. Sin embargo, las bases de datos de hoy en día típicamente sobre-representan ciertas clases de proteínas. Por lo tanto, el primer paso es reducir este exceso de representación y hacer que el conjunto de datos más representativo. Un método para hacerlo es contar todos los bloques idénticos como si fueran un solo bloque, la reducción de la base de datos alineado a:
AVAAA
AVLAA
VVAAL
A continuación, en cada posición, hay que calcular las sustituciones de pares observados y esperados. En la posición 1, tenemos:
LaUn AA, AV, AV son las sustituciones observadas. Sin precisar los cálculos necesarios, uno
puede ver que la sustitución de A para A o A para V son bastante probable y que no es AX!
¿Por qué se llama BLOSUM62 BLOSUM62? Básicamente, esto se debe a que todos los bloques cuyos miembros comparten al menos 62% de identidad con cualquier otro miembro de ese bloque se promediaron y representado como 1 secuencia.¿Cómo sería este trabajo con nuestro ejemplo?
AVAAA
AVAAA
AVAAA
AVLAA
VVAAL
1-4 son todos 80% idénticos entre sí. Secuencia 5 está a menos de 62% (que es 60% idéntica a 1-3 y t0 4 #).Esto significa que el bloque utilizado para hacer una BLOSUM62 sería: (! En cuenta el cálculo del promedio)
AVA (3/4) AA

(1/4)
VVA ***** AL
¿Cómo se relacionan con la matriz de similitud estructural? La mayoría de los bioquímicos de grupo los aminoácidos de la siguiente manera:
G, A, V, L, I, M alifáticos (aunque algunos no incluir G)
S, T, C hidroxilo, sulfhidrilo, polar
N, Q cadenas laterales amida
M, W, Y aromático
H, K, R básica
D, E ácida
Algunas sustituciones en lugar anómalas en relación con estos grupos se destacan a continuación. Por ejemplo, parece muy sorprendente para mí que la sustitución KE no es inusual. Eso cambia cargo! Esto sugiere que lo que la evolución piensa que es "similar" no es necesariamente similar a la del biólogo molecular.
(Por supuesto, también es posible que la sustitución KE en una posición también está a menudo correlacionada con una sustitución EK en otros lugares, y que lo que se retiene es la interacción electrostática entre residuos cargados. Mucho como GC o CG compensar mutaciones en tallo de bucles de ARN estructuras secundarias.)
 CSTPLaGNDEQHRKMYOLVFYW
C
9
-1
-1
-3
0
-3
-3
-3
-4
-3
-3
-3
-3
-1
-1
-1
-1
-2
-2
-2
S
-1
4
1
-1
1
0
1
0
0
0
-1
-1
0
-1
-2
-2
-2
-2
-2
-3
T
-1
1
4
1
-1
1
0
1
0
0
0
-1
0
-1
-2
-2
-2
-2
-2
-3
P
-3
-1
1
7
-1
-2
-1
-1
-1
-1
-2
-2
-1
-2
-3
-3
-2
-4
-3
-4
La
0
1
-1
-1
4
0
-1
-2
-1
-1
-2
-1
-1
-1
-1
-1
-2
-2
-2
-3
G
-3
0
1
-2
0
6
-2
-1
-2
-2
-2
-2
-2
-3
-4
-4
0
-3
-3
-2
N
-3
1
0
-2
-2
0
6
1
0
0
1
0
0
-2
-3
-3
-3
-3
-2
-4
D
-3
0
1
-1
-2
-1
1
6
2
0
-1
-2
-1
-3
-3
-4
-3
-3
-3
-4
E
-4
0
0
-1
-1
-2
0
2
5
2
0
0
1
-2
-3
-3
-3
-3
-2
-3
Q
-3
0
0
-1
-1
-2
0
0
2
5
0
1
1
0
-3
-2
-2
-3
-1
-2
H
-3
-1
0
-2
-2
-2
1
-1
0
0
8
0
-1
-2
-3
-3
-2
-1
2
-2
R
-3
-1
-1
-2
-1
-2
0
-2
0
1
0
5
2
-1
-3
-2
-3
-3
-2
-3
K
-3
0
0
-1
-1
-2
0
-1
1
1
-1
2
5
-1
-3
-2
-3
-3
-2
-3
M
-1
-1
-1
-2
-1
-3
-2
-3
-2
0
-2
-1
-1
5
1
2
-2
0
-1
-1
YO
-1
-2
-2
-3
-1
-4
-3
-3
-3
-3
-3
-3
-3
1
4
2
1
0
-1
-3
L
-1
-2
-2
-3
-1
-4
-3
-4
-3
-2
-3
-2
-2
2
2
4
3
0
-1
-2
V
-1
-2
-2
-2
0
-3
-3
-3
-2
-2
-3
-3
-2
1
3
1
4
-1
-1
-3
F
-2
-2
-2
-4
-2
-3
-3
-3
-3
-3
-1
-3
-3
0
0
0
-1
6
3
1
Y
-2
-2
-2
-3
-2
-3
-2
-3
-2
-1
2
-2
-2
-1
-1
-1
-1
3
7
2
W
-2
-3
-3
-4
-3
-2
-4
-4
-3
-2
-2
-3
-3
-1
-3
-2
-3
1
2
11

No hay comentarios:

Publicar un comentario