BLOSUM (BLOcks SUbstitution Matrix)
Las matrices de puntuación BLOSUM se diferencian de las PAM porque:
- se generan a partir un número mucho mayor de secuencias de partida (pertenecientes a más de 500 familias de proteínas)
- el grado de divergencia entre las secuencias es mucho mayor
- el tipo de análisis realizado es distinto (modelo evolutivo: star-tree)
La matriz BLOSUM62 es una de las más utilizadas para puntuar el alineamiento de secuencias proteicas. Los valores de la matriz se basan en las sustituciones de aminoácidos (aa) observadas en aproximadamente 2000 bloques (patrones de aa conservados y que no presentan huecos) pertenecientes a más de 500 familias de proteínas almacenadas en la base de datos PROSITE.
Steven y Jorja Henikoff examinaron las familias de proteínas en busca de los patrones de aa sin huecos (bloques) característicos de cada una. Para ello utilizaron el programa MOTIF, capaz de localizar patrones del tipo aa1-d1-aa2-d2-a3, donde aa1 y aa2 son aa conservados y d1 y d2 son segmentos intermedios de la secuencia, con una longitud de hasta 24 aa y presentes en todas las secuencias de la familia. Posteriormente, con el programa PROTOMAT agruparon los patrones iniciales en patrones más largos (y sin huecos), cuya longitud podía estar comprendida entre 3 y 60 aa. Como los bloques estaban presentes en todos los miembros de cada familia, podían ser utilizados para realizar búsquedas en las bases de datos para identificar a nuevos miembros de cada familia.
Una vez alineados los bloques, las columnas indican el tipo se sustituciones de aa que pueden ocurrir. Se contabilizan las sustituciones de aa observadas en cada columna y se les asigna una puntuación que aparece recogida en la matriz de puntuación BLOSUM. Cada entrada de la matriz es el logaritmo de la probabilidad relativa (log odds). La probabilidad relativa es el cociente entre la frecuencia observada para una determinada sustitución de aa y la frecuencia que cabría esperar por simple azar.
El cómputo de las sustituciones de aa observadas en los bloques puede llevar a sobrerrepresentar las sustituciones que tienen lugar en los miembros más estrechamente relacionados de cada familia. Para reducir esta contribución predominante, antes de realizar el cómputo de sustituciones se agrupan las secuencias más parecidas de cada bloque en una sóla y las sustituciones observadas en estas secuencias agrupadas se contabilizan de forma ponderada. Así,
- si se agrupan las secuencias con un 60% de parecido se genera la matriz BLOSUM60
- si se agrupan las secuencias con un 80% de parecido se genera la matriz BLOSUM80
BLOSUM62 sustitución de la matriz
C | S | T | P | La | G | N | D | E | Q | H | R | K | M | YO | L | V | F | Y | W | |
C |
9
|
-1
|
-1
|
-3
|
0
|
-3
|
-3
|
-3
|
-4
|
-3
|
-3
|
-3
|
-3
|
-1
|
-1
|
-1
|
-1
|
-2
|
-2
|
-2
|
S |
-1
|
4
|
1
|
-1
|
1
|
0
|
1
|
0
|
0
|
0
|
-1
|
-1
|
0
|
-1
|
-2
|
-2
|
-2
|
-2
|
-2
|
-3
|
T |
-1
|
1
|
4
|
1
|
-1
|
1
|
0
|
1
|
0
|
0
|
0
|
-1
|
0
|
-1
|
-2
|
-2
|
-2
|
-2
|
-2
|
-3
|
P |
-3
|
-1
|
1
|
7
|
-1
|
-2
|
-1
|
-1
|
-1
|
-1
|
-2
|
-2
|
-1
|
-2
|
-3
|
-3
|
-2
|
-4
|
-3
|
-4
|
La |
0
|
1
|
-1
|
-1
|
4
|
0
|
-1
|
-2
|
-1
|
-1
|
-2
|
-1
|
-1
|
-1
|
-1
|
-1
|
-2
|
-2
|
-2
|
-3
|
G |
-3
|
0
|
1
|
-2
|
0
|
6
|
-2
|
-1
|
-2
|
-2
|
-2
|
-2
|
-2
|
-3
|
-4
|
-4
|
0
|
-3
|
-3
|
-2
|
N |
-3
|
1
|
0
|
-2
|
-2
|
0
|
6
|
1
|
0
|
0
|
-1
|
0
|
0
|
-2
|
-3
|
-3
|
-3
|
-3
|
-2
|
-4
|
D |
-3
|
0
|
1
|
-1
|
-2
|
-1
|
1
|
6
|
2
|
0
|
-1
|
-2
|
-1
|
-3
|
-3
|
-4
|
-3
|
-3
|
-3
|
-4
|
E |
-4
|
0
|
0
|
-1
|
-1
|
-2
|
0
|
2
|
5
|
2
|
0
|
0
|
1
|
-2
|
-3
|
-3
|
-3
|
-3
|
-2
|
-3
|
Q |
-3
|
0
|
0
|
-1
|
-1
|
-2
|
0
|
0
|
2
|
5
|
0
|
1
|
1
|
0
|
-3
|
-2
|
-2
|
-3
|
-1
|
-2
|
H |
-3
|
-1
|
0
|
-2
|
-2
|
-2
|
1
|
1
|
0
|
0
|
8
|
0
|
-1
|
-2
|
-3
|
-3
|
-2
|
-1
|
2
|
-2
|
R |
-3
|
-1
|
-1
|
-2
|
-1
|
-2
|
0
|
-2
|
0
|
1
|
0
|
5
|
2
|
-1
|
-3
|
-2
|
-3
|
-3
|
-2
|
-3
|
K |
-3
|
0
|
0
|
-1
|
-1
|
-2
|
0
|
-1
|
1
|
1
|
-1
|
2
|
5
|
-1
|
-3
|
-2
|
-3
|
-3
|
-2
|
-3
|
M |
-1
|
-1
|
-1
|
-2
|
-1
|
-3
|
-2
|
-3
|
-2
|
0
|
-2
|
-1
|
-1
|
5
|
1
|
2
|
-2
|
0
|
-1
|
-1
|
YO |
-1
|
-2
|
-2
|
-3
|
-1
|
-4
|
-3
|
-3
|
-3
|
-3
|
-3
|
-3
|
-3
|
1
|
4
|
2
|
1
|
0
|
-1
|
-3
|
L |
-1
|
-2
|
-2
|
-3
|
-1
|
-4
|
-3
|
-4
|
-3
|
-2
|
-3
|
-2
|
-2
|
2
|
2
|
4
|
3
|
0
|
-1
|
-2
|
V |
-1
|
-2
|
-2
|
-2
|
0
|
-3
|
-3
|
-3
|
-2
|
-2
|
-3
|
-3
|
-2
|
1
|
3
|
1
|
4
|
-1
|
-1
|
-3
|
F |
-2
|
-2
|
-2
|
-4
|
-2
|
-3
|
-3
|
-3
|
-3
|
-3
|
-1
|
-3
|
-3
|
0
|
0
|
0
|
-1
|
6
|
3
|
1
|
Y |
-2
|
-2
|
-2
|
-3
|
-2
|
-3
|
-2
|
-3
|
-2
|
-1
|
2
|
-2
|
-2
|
-1
|
-1
|
-1
|
-1
|
3
|
7
|
2
|
W |
-2
|
-3
|
-3
|
-4
|
-3
|
-2
|
-4
|
-4
|
-3
|
-2
|
-2
|
-3
|
-3
|
-1
|
-3
|
-2
|
-3
|
1
|
2
|
11
|
Esta tabla muestra las sustituciones observadas se encuentran en una muestra amplia de los segmentos alineados de polipéptidos. El método preciso de cálculo se hace un poco abstrusa, sino una ilustración puede desmitificar algunos aspectos.
El procedimiento para calcular una matriz BLOSUM se basa en un método de estimación de probabilidad de la ocurrencia de cada posible sustitución por pares. Un ejemplo muy simple de un cálculo de este tipo para un segmento muy corto se da a continuación para ilustrar el proceso. Los polipéptidos se alinearon inicialmente utilizando una matriz de puntuación de identidad. Sólo bloques alineados se utilizan para calcular los BLOSUMs.Suponga que los siguientes 5 proteínas fueron alineados de la siguiente manera:
AVAAA
AVAAA
AVAAA
AVLAAVVAAL
En primer lugar, tenemos que decidir si cada secuencia debe contar por igual en este proceso. Si esta base de datos fuera una representación global, que deberían. Sin embargo, las bases de datos de hoy en día típicamente sobre-representan ciertas clases de proteínas. Por lo tanto, el primer paso es reducir este exceso de representación y hacer que el conjunto de datos más representativo. Un método para hacerlo es contar todos los bloques idénticos como si fueran un solo bloque, la reducción de la base de datos alineado a:
AVAAA
AVLAAVVAAL
A continuación, en cada posición, hay que calcular las sustituciones de pares observados y esperados. En la posición 1, tenemos:
LaUn AA, AV, AV son las sustituciones observadas. Sin precisar los cálculos necesarios, uno
V puede ver que la sustitución de A para A o A para V son bastante probable y que no es AX!
¿Por qué se llama BLOSUM62 BLOSUM62? Básicamente, esto se debe a que todos los bloques cuyos miembros comparten al menos 62% de identidad con cualquier otro miembro de ese bloque se promediaron y representado como 1 secuencia.¿Cómo sería este trabajo con nuestro ejemplo?
AVAAA
AVAAA
AVAAA
AVLAAVVAAL
1-4 son todos 80% idénticos entre sí. Secuencia 5 está a menos de 62% (que es 60% idéntica a 1-3 y t0 4 #).Esto significa que el bloque utilizado para hacer una BLOSUM62 sería: (! En cuenta el cálculo del promedio)
AVA (3/4) AA
L (1/4)VVA ***** AL
¿Cómo se relacionan con la matriz de similitud estructural? La mayoría de los bioquímicos de grupo los aminoácidos de la siguiente manera:
G, A, V, L, I, M alifáticos (aunque algunos no incluir G)
S, T, C hidroxilo, sulfhidrilo, polar
N, Q cadenas laterales amida
M, W, Y aromático
H, K, R básica
D, E ácidaAlgunas sustituciones en lugar anómalas en relación con estos grupos se destacan a continuación. Por ejemplo, parece muy sorprendente para mí que la sustitución KE no es inusual. Eso cambia cargo! Esto sugiere que lo que la evolución piensa que es "similar" no es necesariamente similar a la del biólogo molecular.
(Por supuesto, también es posible que la sustitución KE en una posición también está a menudo correlacionada con una sustitución EK en otros lugares, y que lo que se retiene es la interacción electrostática entre residuos cargados. Mucho como GC o CG compensar mutaciones en tallo de bucles de ARN estructuras secundarias.)
C | S | T | P | La | G | N | D | E | Q | H | R | K | M | YO | L | V | F | Y | W | |
C |
9
|
-1
|
-1
|
-3
|
0
|
-3
|
-3
|
-3
|
-4
|
-3
|
-3
|
-3
|
-3
|
-1
|
-1
|
-1
|
-1
|
-2
|
-2
|
-2
|
S |
-1
|
4
|
1
|
-1
|
1
|
0
|
1
|
0
|
0
|
0
|
-1
|
-1
|
0
|
-1
|
-2
|
-2
|
-2
|
-2
|
-2
|
-3
|
T |
-1
|
1
|
4
|
1
|
-1
|
1
|
0
|
1
|
0
|
0
|
0
|
-1
|
0
|
-1
|
-2
|
-2
|
-2
|
-2
|
-2
|
-3
|
P |
-3
|
-1
|
1
|
7
|
-1
|
-2
|
-1
|
-1
|
-1
|
-1
|
-2
|
-2
|
-1
|
-2
|
-3
|
-3
|
-2
|
-4
|
-3
|
-4
|
La |
0
|
1
|
-1
|
-1
|
4
|
0
|
-1
|
-2
|
-1
|
-1
|
-2
|
-1
|
-1
|
-1
|
-1
|
-1
|
-2
|
-2
|
-2
|
-3
|
G |
-3
|
0
|
1
|
-2
|
0
|
6
|
-2
|
-1
|
-2
|
-2
|
-2
|
-2
|
-2
|
-3
|
-4
|
-4
|
0
|
-3
|
-3
|
-2
|
N |
-3
|
1
|
0
|
-2
|
-2
|
0
|
6
|
1
|
0
|
0
|
1
|
0
|
0
|
-2
|
-3
|
-3
|
-3
|
-3
|
-2
|
-4
|
D |
-3
|
0
|
1
|
-1
|
-2
|
-1
|
1
|
6
|
2
|
0
|
-1
|
-2
|
-1
|
-3
|
-3
|
-4
|
-3
|
-3
|
-3
|
-4
|
E |
-4
|
0
|
0
|
-1
|
-1
|
-2
|
0
|
2
|
5
|
2
|
0
|
0
|
1
|
-2
|
-3
|
-3
|
-3
|
-3
|
-2
|
-3
|
Q |
-3
|
0
|
0
|
-1
|
-1
|
-2
|
0
|
0
|
2
|
5
|
0
|
1
|
1
|
0
|
-3
|
-2
|
-2
|
-3
|
-1
|
-2
|
H |
-3
|
-1
|
0
|
-2
|
-2
|
-2
|
1
|
-1
|
0
|
0
|
8
|
0
|
-1
|
-2
|
-3
|
-3
|
-2
|
-1
|
2
|
-2
|
R |
-3
|
-1
|
-1
|
-2
|
-1
|
-2
|
0
|
-2
|
0
|
1
|
0
|
5
|
2
|
-1
|
-3
|
-2
|
-3
|
-3
|
-2
|
-3
|
K |
-3
|
0
|
0
|
-1
|
-1
|
-2
|
0
|
-1
|
1
|
1
|
-1
|
2
|
5
|
-1
|
-3
|
-2
|
-3
|
-3
|
-2
|
-3
|
M |
-1
|
-1
|
-1
|
-2
|
-1
|
-3
|
-2
|
-3
|
-2
|
0
|
-2
|
-1
|
-1
|
5
|
1
|
2
|
-2
|
0
|
-1
|
-1
|
YO |
-1
|
-2
|
-2
|
-3
|
-1
|
-4
|
-3
|
-3
|
-3
|
-3
|
-3
|
-3
|
-3
|
1
|
4
|
2
|
1
|
0
|
-1
|
-3
|
L |
-1
|
-2
|
-2
|
-3
|
-1
|
-4
|
-3
|
-4
|
-3
|
-2
|
-3
|
-2
|
-2
|
2
|
2
|
4
|
3
|
0
|
-1
|
-2
|
V |
-1
|
-2
|
-2
|
-2
|
0
|
-3
|
-3
|
-3
|
-2
|
-2
|
-3
|
-3
|
-2
|
1
|
3
|
1
|
4
|
-1
|
-1
|
-3
|
F |
-2
|
-2
|
-2
|
-4
|
-2
|
-3
|
-3
|
-3
|
-3
|
-3
|
-1
|
-3
|
-3
|
0
|
0
|
0
|
-1
|
6
|
3
|
1
|
Y |
-2
|
-2
|
-2
|
-3
|
-2
|
-3
|
-2
|
-3
|
-2
|
-1
|
2
|
-2
|
-2
|
-1
|
-1
|
-1
|
-1
|
3
|
7
|
2
|
W |
-2
|
-3
|
-3
|
-4
|
-3
|
-2
|
-4
|
-4
|
-3
|
-2
|
-2
|
-3
|
-3
|
-1
|
-3
|
-2
|
-3
|
1
|
2
|
11
|
No hay comentarios:
Publicar un comentario