martes, 24 de julio de 2018

BIOINFORMÁTICA


La Database of Macromolecular Motions (traducción aproximada: Base de datos de Movimientos Macromoleculares) (molmovdb (en)) es un bioinformatics base de datos que intentos a categorize movimientos macromoleculares, a veces también sabidos como conformational cambio.


Descripción[editar]

Sea original desarrollado por Mark Bender Gerstein, Werner Krebs, y Nat Echols en el Departamento de Bioquímica & de Biofísica Molecular en Yale Universidad. Los usuarios pueden buscar la base de datos para un movimiento particular por cualquier nombre de proteína o Banco de Dato de la Proteína ID número. Típicamente los usuarios introducirán la base de datos vía el Banco de Dato de la Proteína, el cual a menudo proporciona un hiperenlace al entrada para las proteínas encontradas en ambas bases de datos.
La base de datos incluye una web-herramienta basada (el servidor de Morfo) cuál deja no-expertos para animar y visualizar tipos seguros de proteína conformational cambio a través de la generación de películas cortas. Este sistema utiliza técnicas de modelización molecular a interpolate los cambios estructurales entre dos proteína diferente conformers y para generar un conjunto de estructuras intermedias. Un hiperenlace que señala a los resultados de morfo es entonces emailed al usuario.3
El Servidor de Morfo era originalmente principalmente una herramienta de búsqueda más que herramienta de animación molecular general, y así ofrecido usuario limitado sólo control sobre rendering, parámetros de animación, color, y punto de vista, y los métodos originales a veces requirieron una cantidad justa de CPU tiempo a conclusión.4​ Desde su introducción inicial en 1996, la base de datos y servidor de morfo asociado han experimentado desarrollo para probar para dirigir algunos de estos shortcomings así como añade características nuevas, como Análisis de Modo Normal.56​ Otras tierras de búsqueda posteriormente han desarrollado sistemas alternativos, como MovieMaker (en) de la Universidad de Alberta.4

Comercialización[editar]

Bioinformatics Vendedor DNASTAR tiene incorporó morfos de la base de datos a su comercial Protean3D producto.78​ La conexión entre DNASTAR y los autores de la base de datos, si cualquiera, no es inmediatamente claro.










bigrama o digrama es un grupos de dos letras, dos sílabas, o dos palabras. Los bigramas son utilizados comúnmente como base para el simple análisis estadístico de texto. Se utilizan en uno de los más exitosos modelos de lenguaje para el reconocimiento de voz.1​ Se trata de un caso especial del N-grama.
Los Bigramas ayudan a proporcionar la probabilidad condicional de una palabra dada la palabra precedente, cuando la relación de la probabilidad condicional se aplica:
Es decir, la probabilidad  de una palabra  dada la palabra precedente  es igual a la probabilidad de su bigrama, o la co-ocurrencia de las dos palabras , dividido por la probabilidad de que la palabra precedente.










Gramática Bigrama de 160 Macrocategorías (MC160)
Ya se justificó el interés de incorporar conocimiento lingüístico guiando al sistema de reconocimiento de habla, especialmente conocimiento sintáctico, para imponer restricciones en el espacio de búsqueda, reduciendo el número de posibilidades que pueden ser hipótesis en cada instante (reducción de la perplejidad). Sin embargo, para generar un modelo gramatical estocástico (N-grama) son necesarios muchos datos de entrenamiento, convenientemente etiquetados si el modelo gramatical es de categorías, y los textos del corpus DARPA-ESPAÑOL no es suficiente, es demasiado pequeño para tal fin y daría lugar a gramáticas muy adaptadas, con baja perplejidad pero escasa cobertura. Para solucionar este problema se decidió utilizar un modelo gramatical genérico para el Castellano, obtenido dentro del marco del proyecto europeo ESPRIT 860, en el que se definieron unas categorías gramaticales básicas y una posible agrupación de éstas en macrocategorías gramaticales, buscando la reducción de complejidad y la robustez del modelo. Con el agrupamiento en los 160 grupos se consiguió lo que los expertos denominaron un conjunto óptimo de macrocategorías que caracteriza al Castellano con suficiente generalidad sin perder en exceso la información de detalle. La asociación se hizo en base al agrupamiento de categorías que se comportaban de forma similar ante las categorías que les podían preceder o seguir. La medida que se utilizó para supervisar las asociaciones fue la entropía. Las categorías se dividieron en grupos jerarquizados, donde el grupo principal representaba a las grandes categorías gramaticales (Nombre, Verbo, Adjetivo, Adverbio, Pronombre, Preposición, Artículos o Determinantes, Conjunción, Interjección y Otros). A su vez cada uno de estos grupos tiene subdivisiones más o menos complejas. En el Apéndice 5.4 podemos ver con la lista de las 160 macrocategorías definidas basadas en el conjunto de categorías básicas. La categorización básica para el Castellano conseguida es bastante completa y llega a un nivel de detalle muy elevado, pero, debido a la dificultad para categorizar una lengua tan rica como la española, según los expertos, nunca se podrán tener en cuenta todos los pequeños detalles, y toda categorización siempre presentará lagunas.
Como se ha dicho, en los modelos de lenguaje basados en clases de categorías gramaticales, es imprescindible disponer de textos categorizados, en los que cada palabra viene acompañada de su categoría gramatical de acuerdo a su contexto en la frase. Los textos de los que se dispuso para crear el modelo fueron:
  • Textos periodísticos extraídos de periódicos de temas muy variados (spa)
  • Informes económicos de la CEE escritos en lenguaje formal pero sin muchos tecnicismos (cee)
  • Textos jurídicos de la CEE que utilizan un vocabulario y unas construcciones gramaticales muy técnicas (eec)
Se dispuso de tres grupos de textos extraídos de publicaciones distintas para realizar las pruebas. Cada grupo se divide en dos conjuntos: el primero será utilizado en el entrenamiento o generación de los modelos gramaticales, y el segundo se usará para realizar las medidas de evaluación. La cantidad de texto dedicada a evaluación está entre 5000 y 6000 palabras, aunque en nuestro caso utilizaremos para la evaluación el corpus DARPA-ESPAÑOL, lo que supone condiciones más realistas de evaluación para un modelo que pretende ser general para el Castellano. Debido a que todos los grupos de textos no tienen el mismo número de palabras, se utilizan nuevos subgrupos extraídos del conjunto de entrenamiento que tienen el mismo número de palabras (unas 50000 aproximadamente). Esta subdivisión es importante para poder comparar sistemas en las mismas condiciones.
__
Nomenclatura
Núm. Palabras
% del total
ceetotaltextos_cee117542100%
 evaluacióntextos_E_cee70366%
 entrenamientotextos_X_cee11050694%
 entrenamiento restringidotextos_XX_cee5138643.7%
eectotaltextos_eec144185100%
 evaluacióntextos_E_eec60224.2%
 entrenamientotextos_X_eec13816195.8%
 entrenamiento restringidotextos_XX_eec5299036.7%
spatotaltextos_spa54222100%
 evaluacióntextos_E_spa547910.1%
 entrenamientotextos_X_spa4874389.9%
 entrenamiento restringidotextos_XX_spa4874389.9%
Tabla 5.1 Información de los textos de entrenamiento y evaluación de la gramática MC160 del Castellano desarrollada dentro del proyecto ESPRIT 860
Cobertura del modelo MC160 del corpus DARPA-ESPAÑOL
Para entender el problema de la cobertura de las frases de nuestro corpus por la gramática MC160, analizamos la matriz de macrocategorías, para conocer el nivel de llenado de la misma, es decir, el número de pares de macrocategorías entrenados (observados al menos una vez en los textos de entrenamiento de los que ya hemos hablado antes), y comparamos dicho nivel con el de la matriz suavizada GR160S-J (el suavizamiento se ha llevado a cabo utilizando el método “back-off” [KAT87] como se describe en el punto 5.1.3 de este mismo capítulo). La gramática GR160S-J es la gramática MC160 suavizada (S) y con los nombres propios compuestos tratados como una sola palabra y las locuciones compuestas (J).
GramáticaNº Pares MatrizNº Pares No ObservadosPerplejidad(Test Set P.)
MC1602624423495 (89.52 %)334.25
GR160S-J26244324 (1.23 %)481.22
Tabla 5.2 Tamaño de las matrices y sus índices de cobertura y perplejidad, para las gramáticas MC160 sin suavizar y con un diccionario básico y la gramática GR160S-J, suavizada y con un diccionario de nombres propios compuestos tratados como una sola palabra así como las locuciones compuestas.
Se puede observar que, antes del suavizado de la misma, eran muchos los pares de macrocategorías no entrenados (no observados), casi el 90 %. Se podría pensar que muchos de esos pares no se dan realmente en la lengua, pero lo cierto es que existen otros muchos que sí se dan y que simplemente, no se encontraban en los textos seleccionados para el entrenamiento o generación de la gramática. Cuanto más vacía se encuentre inicialmente una matriz, menos poder de restricción o guiado tendrá, ya que el suavizado rellena la matriz pero no pondera adecuadamente (al no diferenciarlos) aquellos casos de pares no observados pero que pueden aparecer en la lengua de los realmente no permitidos. Observe cómo el suavizado no afecta especialmente a la perplejidad de la gramática, aunque lógicamente la aumenta, al igual que aumenta la cobertura. En los resultados experimentales podremos comprobar cómo una gramática tan suavizada, tan poco entrenada, no apoya demasiado al decodificador acústico, no aumentando la tasa de reconocimiento tanto como se podría esperar al incorporar este conocimiento gramatical guiando al Módulo Acústico.
No sólo podemos dar una medida de cobertura global sobre el conjunto de datos (frases) de evaluación sino también un estudio de los errores a nivel de categoría, indicando las frases no cubiertas y los pares de categorías que producen el fallo de cobertura en las mismas, y que no aparecen en la matriz de pares (bigrama de categorías) (MC160).
_Frases No Cubiertas
ST100 - Evaluación36 (36 %)
Tabla 5.3 Medida de cobertura utilizando la gramática MC160 (sin suavizar) sobre las frases de DARPA-E con el diccionario D-160J (con los nombres propios compuestos tratados como una sóla palabra y algunas locuciones de varias palabras)
Se ha generado la matriz de pares de categorías asociada al corpus DARPA-ESPAÑOL utilizando sólo los textos del mismo, que denominaremos DARPA160-J, ya que mantenemos los nombres propios compuestos y las locuciones compuestas como una sola palabra. Ésta sería la matriz adaptada a la aplicación, con la que se conseguiría la mejor perplejidad y la mejor cobertura de dichos textos de entrenamiento pero no de nuevas frases que tuviese que procesar el sistema, es decir, adolecería de problemas de cobertura en general. Hemos analizado el solapamiento entre esta matriz y la matriz de pares no suavizada (MC160), y hemos comprobado que, a pesar de la cantidad de textos etiquetados utilizados en el proyecto, existen bastantes pares de categorías que aparecen en la matriz adaptada que no aparecen (no han sido observados) en la matriz general de 160 macrocategorías (MC160), y ello repercute directamente en la tasa de reconocimiento de nuestro sistema, justificando la necesidad de suavizado de la gramática general antes de incorporarla al sistema de reconocimiento.
_Pares CubiertosPares No Cubiertos
DARPA160-J610 (90.5%)64 (9.5%)
Tabla 5.4 Pares entrenados y no entrenados en la matriz general MC160 que aparecen en las frases de entrenamiento y evaluación del dominio DARPA-ESPAÑOL
Se puede comprobar como casi un 10% de pares de categorías no cubiertas producen un 36% de frases de evaluación no cubiertas. Aunque el suavizado soluciona el problema de la cobertura no es, sin embargo, el mejor procedimiento para conseguir incorporar restricciones morfosintácticas en el sistema de reconocimiento, repercutiendo directamente en la tasa de reconocimiento. La mejor solución sería disponer de más textos de entrenamiento que permitiesen obtener matrices de pares con un mayor índice de cobertura sin necesidad de suavizarlas.
Perplejidad del Conjunto de Datos de Evaluación (Test Set Perplexity) de la Gramática GR160S-J sobre DARPA-ESPAÑOL
Los problemas de cobertura del conjunto de datos de evaluación del corpus DARPA-ESPAÑOL que hemos comentado imponen la necesidad de evaluar la perplejidad utilizando el modelo gramatical suavizado, porque en el fondo es el modelo que vamos a tener que utilizar y el suavizado va a modificar el valor de la perplejidad. De este modo la perplejidad medida es la de la gramática que realmente hemos empleado. El suavizado produce un aumento de la perplejidad pues ahora son posibles (están permitidos) pares de categorías que antes no estaban (ahora se permiten prácticamente todos los pares de categorías aunque con una probabilidad muy baja).
 GR160S-JGR160S-S
Perplejidad481.22501.69
Tabla 5.5 Medida de perplejidad del conjunto de datos de evaluación (Test Set Perplexity) con las gramáticas GR160S-J (suavizada con diccionario con nombres propios compuestos y locuciones tratadas como una única palabra) y GR160S-S (suavizada, con nombres propios compuestos tratados como varias palabras)
La perplejidad medida es bastante alta teniendo en cuenta el tamaño (número de entradas) del diccionario utilizado (D-160J), lo que producirá un menor efecto de guiado de la gramática sobre el Módulo Acústico. La razón para esta perplejidad tan alta es la existencia (como puede observarse en el Apéndice 5.4) de macrocategorías con un alto número de palabras, es decir, unas pocas categorías muy frecuentes son muy amplias. No existe una distribución razonablemente homogénea del diccionario de palabras en el diccionario de categorías en nuestro dominio de aplicación. Esto dependerá del dominio concreto pero además responde a la propia naturaleza del lenguaje, en el que categorías como nombres y adjetivos son muy amplias y frecuentes en una frase.


http://elies.rediris.es/elies12/cap512.htm


No hay comentarios:

Publicar un comentario