estimador adaptativo es un estimador en un modelo paramétrico o semiparamétrico con parámetros de molestia, de modo que la presencia de estos parámetros de molestia no afecte la eficiencia de la estimación.
Definición [ editar ]
Formalmente, deje parámetro θ en un modelo paramétrico consta de dos partes: el parámetro de interés nu ∈ N ⊆ R k , y la molestia parámetro eta ∈ H ⊆ R m . Así, θ = ( ν, η ) ∈ N × H ⊆ R k + m . Entonces diremos quees un estimador adaptativo de ν en presencia de η si este estimador es regular y eficiente para cada uno de los submodelos [1]
El estimador adaptativo estima el parámetro de interés igualmente bien independientemente de si el valor del parámetro de molestia es conocido o no.
donde z ν y z η son componentes de la función de puntuación correspondientes a los parámetros ν y ηrespectivamente, y por lo tanto I νη es el bloque k × m de arriba a la derecha de la matriz de información de Fisher I ( θ ).
Ejemplo [ editar ]
Entonces el estimador habitual. es adaptable: podemos estimar la media igualmente bien si conocemos la varianza o no.
cadena de Markov aditiva es una cadena de Markov con una función de probabilidad condicional aditiva . Aquí, el proceso es una cadena de Markov de tiempo discreto m, y la probabilidad de transición a un estado la próxima vez es una suma de funciones, cada una dependiendo del estado siguiente y uno de los m estados anteriores.
Definición [ editar ]
Una cadena de Markov aditiva de orden m es una secuencia de variables aleatorias X 1 , X 2 , X 3 , ..., que posee la siguiente propiedad: la probabilidad de que una variable aleatoria X n tenga un cierto valor x n bajo la condición de que los valores de todas las variables anteriores se fijan, depende solo de los valores de mvariables anteriores ( cadena de orden de Markov m ), y la influencia de las variables anteriores en una generada es aditiva,
Caso binario [ editar ]
Una cadena de Markov aditiva binaria es donde el espacio de estado de la cadena consiste solo en dos valores, X n ∈ { x 1 , x 2 }. Por ejemplo, X n ∈ {0, 1}. La función de probabilidad condicional de una cadena de Markov aditiva binaria se puede representar como
aquí es la probabilidad de encontrar X n = 1 en la secuencia y F ( r ) se conoce como la función de memoria. El valor dey la función F ( r ) contiene toda la información sobre las propiedades de correlación de la cadena de Markov.
Relación entre la función de memoria y la función de correlación [ editar ]
En el caso binario, la función de correlación entre las variables. y De la cadena depende de la distancia. solamente. Se define de la siguiente manera:
donde el simbolo denota el promedio de todo n . Por definición,
Existe una relación entre la función de memoria y la función de correlación de la cadena de Markov aditiva binaria: [1]
- modelo aditivo ( AM ) es un método de regresión no paramétrico . Fue sugerido por Jerome H. Friedman y Werner Stuetzle (1981) [1] y es una parte esencial del algoritmo ACE . La AM usa un suavizadorunidimensional para construir una clase restringida de modelos de regresión no paramétrica. Debido a esto, se ve menos afectado por la maldición de la dimensionalidad que, por ejemplo, un suavizado en p- dimensional. Además, el AM es más flexible que un modelo lineal estándar., mientras que es más interpretable que una superficie de regresión general a costa de errores de aproximación. Los problemas con la AM incluyen la selección del modelo , el sobreajuste y la multicolinealidad .
Descripción [ editar ]
Dado un conjunto de datosde n unidades estadísticas , donderepresentar predictores y Es el resultado, el modelo aditivo toma la forma.oDónde , y . Las funcionesSe desconocen las funciones suaves que caben a partir de los datos. Ajuste de la AM (es decir, las funciones) se puede hacer usando el algoritmo de backfitting propuesto por Andreas Buja, Trevor Hastie y Robert Tibshirani (1989).- suavizado aditivo , también denominado suavizado de Laplace [1] (no debe confundirse con el suavizado de Laplacia como se usa en el procesamiento de imágenes ), o suavizado de Lidstone , es una técnica utilizada para suavizar los datos categóricos . Dada una observaciónDe una distribución multinomial conensayos, una versión "suavizada" de los datos proporciona al estimador :donde "pseudocount" α > 0 es un parámetro de suavizado . α = 0 corresponde a no alisar. (Este parámetro se explica en el § Pseudocontivo a continuación). El suavizado aditivo es un tipo de estimador de contracción , ya que la estimación resultante estará entre la probabilidad empírica ( frecuencia relativa ), y la probabilidad uniforme . Invocando la regla de sucesión de Laplace , algunos autores han argumentado [ cita requerida ] que αdebería ser 1 (en cuyo caso también se usa el término add-one suavizado [2] [3] ) [ se necesita más explicación ] , aunque en la práctica se utiliza una versión más pequeña. el valor se elige típicamenteDesde un punto de vista bayesiano , esto corresponde al valor esperado de la distribución posterior , utilizando una distribución de Dirichlet simétrica con el parámetro α como una distribución previa . En el caso especial donde el número de categorías es 2, esto es equivalente a usar una distribución Beta como el conjugado antes de los parámetros de la distribución Binomial .
Historia [ editar ]
A Laplace se le ocurrió esta técnica de suavizado cuando intentó estimar la probabilidad de que el sol salga mañana. Su razonamiento fue que, incluso teniendo en cuenta una gran cantidad de días con el sol naciente, todavía no podemos estar completamente seguros de que el sol saldrá mañana (conocido como el problema dela salida del sol ). [4]Pseudocontado [ editar ]
Un pseudocontado es una cantidad (no generalmente un número entero, a pesar de su nombre) agregada al número de casos observados para cambiar la probabilidad esperada en un modelo de esos datos, cuando no se sabe que sea cero . Se llama así porque, hablando en términos generales, se trata de un seudo conteo de valor.pesa en la distribución posterior de manera similar a cada categoría que tiene un conteo adicional de. Si la frecuencia de cada elemento es fuera de Muestras, la probabilidad empírica de evento. espero la probabilidad posterior cuando se alisa aditivamente escomo para aumentar cada conteo por a priori.Dependiendo del conocimiento previo, que a veces es un valor subjetivo, un pseudocontado puede tener cualquier valor finito no negativo. Solo puede ser cero (o la posibilidad ignorada) si es imposible por definición, como la posibilidad de que un dígito decimal de pi sea una letra, o una posibilidad física que sería rechazada y no contada, como una computadora que imprime una letra cuando un programa válido para pi se ejecuta, o se excluye y no se cuenta debido a que no tiene interés, como si solo estuviera interesado en los ceros y unos. En general, también existe la posibilidad de que ningún valor sea computable u observable en un tiempo finito (vea el problema de detención)). Pero al menos una posibilidad debe tener un pseudocontado que no sea cero, de lo contrario no se podría calcular la predicción antes de la primera observación. Los valores relativos de los pseudocontados representan las probabilidades relativas previas relativas de sus posibilidades. La suma de los pseudocuentas, que puede ser muy grande, representa el peso estimado del conocimiento previo en comparación con todas las observaciones reales (una para cada una) al determinar la probabilidad esperada.En cualquier conjunto de datos o muestra observados existe la posibilidad, especialmente con eventos de baja probabilidad y con conjuntos de datos pequeños, de que no ocurra un evento. Su frecuencia observada es por lo tanto cero, aparentemente implicando una probabilidad de cero. Esta simplificación excesiva es inexacta y, a menudo, inútil, en particular en las técnicas de aprendizaje automático basadas en la probabilidad , como las redes neuronales artificiales y los modelos ocultos de Markov . Al ajustar artificialmente la probabilidad de eventos raros (pero no imposibles) para que esas probabilidades no sean exactamente cero, se evitan los problemas de frecuencia cero . También vea la regla de Cromwell .El enfoque más simple es agregar uno a cada número observado de eventos, incluidas las posibilidades de conteo cero. Esto a veces se llama la Regla de Sucesión de Laplace . Este enfoque es equivalente a suponer una distribución previa uniforme sobre las probabilidades para cada evento posible (que abarca el símplex donde cada probabilidad está entre 0 y 1, y todas suman 1).Usando el enfoque anterior de Jeffreys , se debe agregar un pseudocuento de la mitad a cada resultado posible.Los seudocuentas deben establecerse en uno solo cuando no hay conocimiento previo en absoluto; consulte el principio de indiferencia . Sin embargo, dado el conocimiento previo apropiado, la suma debe ajustarse en proporción a la expectativa de que las probabilidades anteriores deben considerarse correctas, a pesar de la evidencia en contrario, consulte el análisis adicional . Los valores más altos son apropiados en la medida en que existe un conocimiento previo de los valores verdaderos (para una moneda en perfecto estado, por ejemplo); valores más bajos en la medida en que existe un conocimiento previo de que existe un sesgo probable, pero de grado desconocido (por ejemplo, para una moneda doblada).Un enfoque más complejo es estimar la probabilidad de los eventos a partir de otros factores y ajustarlos en consecuencia.Ejemplos [ editar ]
Una forma de motivar los seudocuentas, particularmente para datos binomiales, es a través de una fórmula para el punto medio de una estimación de intervalo , particularmente un intervalo de confianza de proporción binomial. El más conocido se debe a Edwin Bidwell Wilson , en Wilson (1927) : el punto medio del intervalo de puntuación de Wilson correspondiente a desviaciones estándar en cada lado es:Tomando desviaciones estándar para aproximarse a un intervalo de confianza del 95% () produce un pseudocuento de 2 para cada resultado, de modo que 4 en total, se conocen coloquialmente como la "regla de los cuatro más":Generalizado al caso de tasas de incidencia conocidas [ editar ]
A menudo, se prueba el sesgo de una población de prueba desconocida en comparación con una población de control con parámetros conocidos (tasas de incidencia) . En este caso la probabilidad uniforme. Debe ser reemplazado por la tasa de incidencia conocida de la población control. Para calcular el estimador suavizado:Como comprobación de coherencia, si el estimador empírico pasa a ser igual a la tasa de incidencia, es decir, , el estimador suavizado es independiente de y también es igual a la tasa de incidencia.Aplicaciones [ editar ]
Clasificación [ editar ]
Modelado de lenguaje estadístico [ editar ]
En un modelo de bolsa de palabras de procesamiento de lenguaje natural y recuperación de información, los datos consisten en el número de ocurrencias de cada palabra en un documento. El suavizado aditivo permite la asignación de probabilidades distintas de cero a palabras que no aparecen en la muestra. Estudios recientes han demostrado que el suavizado aditivo es más efectivo que otros métodos de suavizado de probabilidad en varias tareas de recuperación, como los sistemas de retroalimentación y recomendaciones de pseudo-relevanciabasados en el modelo del lenguaje .
No hay comentarios:
Publicar un comentario