Descripción [ editar ]
Todas las técnicas de detección se basan en modelar el fondo de la imagen, es decir, establecer el fondo y detectar qué cambios se producen. Definir el fondo puede ser muy difícil cuando contiene formas, sombras y objetos en movimiento. Al definir el fondo, se supone que los objetos estacionarios podrían variar en color e intensidad a lo largo del tiempo.
Los escenarios donde se aplican estas técnicas tienden a ser muy diversos. Puede haber secuencias altamente variables, como imágenes con iluminación, interiores, exteriores, calidad y ruido muy diferentes. Además de procesar en tiempo real, los sistemas deben poder adaptarse a estos cambios.
Un muy buen sistema de detección de primer plano debería ser capaz de:
- Desarrollar un modelo de fondo (estimación).
- Sea robusto a los cambios de iluminación, movimientos repetitivos (hojas, olas, sombras) y cambios a largo plazo.
Resta de fondo [ editar ]
La sustracción de fondo es un método ampliamente utilizado para detectar objetos en movimiento en videos de cámaras estáticas. El fundamento del enfoque es el de detectar los objetos en movimiento a partir de la diferencia entre el marco actual y un marco de referencia, a menudo llamado "imagen de fondo" o "modelo de fondo". La sustracción de fondo se realiza principalmente si la imagen en cuestión es parte de un flujo de video. La sustracción de fondo proporciona claves importantes para numerosas aplicaciones en la visión por ordenador, por ejemplo, seguimiento de vigilancia o estimación de poses humanas.
La sustracción de fondo se basa generalmente en una hipótesis de fondo estática que a menudo no es aplicable en entornos reales. Con escenas interiores, reflexiones o imágenes animadas en pantallas, se producen cambios en el fondo. De manera similar, debido a los cambios de viento, lluvia o iluminación provocados por el clima, los métodos de fondos estáticos tienen dificultades con las escenas al aire libre. [1]
Filtro de promedio temporal [ editar ]
Ejemplo de filtro de media temporal
El filtro de promedio temporal es un método que se propuso en Velastin. Este sistema calcula el modelo de fondo a partir de la mediana de todos los píxeles de una serie de imágenes anteriores. El sistema utiliza un búfer con los valores de píxeles de los últimos cuadros para actualizar la mediana de cada imagen.
Para modelar el fondo, el sistema examina todas las imágenes en un período de tiempo determinado llamado tiempo de entrenamiento . En este momento solo mostramos imágenes y esta vez encontraremos la mediana, píxel por píxel, de todos los gráficos en el fondo.
Después del período de entrenamiento para cada nuevo marco, cada valor de píxel se compara con el valor de entrada de los fondos calculados previamente. Si el píxel de entrada está dentro de un umbral, se considera que el píxel coincide con el modelo de fondo y su valor se incluye en el pixbuf. De lo contrario, si el valor está fuera de este umbral, el píxel se clasifica como primer plano y no se incluye en el búfer.
Este método no puede considerarse muy eficiente porque no presentan una base estadística rigurosa y requieren un búfer que tenga un alto costo computacional.
Los enfoques convencionales [ editar ]
Un robusto algoritmo de sustracción de fondo debe poder manejar los cambios de iluminación, los movimientos repetitivos del desorden y los cambios de escena a largo plazo. [2] Los siguientes análisis hacen uso de la función de V ( x , y , t ) como una secuencia de video donde t es la dimensión de tiempo, x e y son las variables de ubicación de píxeles. por ejemplo, V (1,2,3) es la intensidad de píxeles en la ubicación de píxeles (1,2) de la imagen en t = 3 en la secuencia de video.
Usando la diferenciación de cuadros [ editar ]
Un algoritmo de detección de movimiento comienza con la parte de segmentación donde los objetos en primer plano o en movimiento se segmentan desde el fondo. La forma más sencilla de implementar esto es tomar una imagen como fondo y tomar los fotogramas obtenidos en el momento t, indicado por I (t) para comparar con la imagen de fondo indicada por B. Aquí, mediante cálculos aritméticos simples, podemos segmentar los los objetos simplemente mediante el uso de la técnica de sustracción de imágenes del significado de la visión por computadora para cada píxel en I (t), tome el valor de píxel indicado por P [I (t)] y reste con los píxeles correspondientes en la misma posición en la imagen de fondo indicada como P [B].
En ecuación matemática, se escribe como:
Se supone que el fondo es el cuadro en el tiempo t . Esta imagen de diferencia solo mostraría algo de intensidad para las ubicaciones de píxeles que han cambiado en los dos cuadros. Aunque aparentemente hemos eliminado el fondo, este enfoque solo funcionará en los casos en que todos los píxeles del primer plano se muevan y todos los píxeles del fondo sean estáticos. [2] [3] Se coloca un umbral "Umbral" en esta imagen de diferencia para mejorar la resta (ver Umbral de imagen ).
Esto significa que las intensidades de los píxeles de la imagen de diferencia son 'umbral' o se filtran en base al valor de Umbral. [4] La precisión de este enfoque depende de la velocidad de movimiento en la escena. Movimientos más rápidos pueden requerir umbrales más altos.
Filtro de media [ editar ]
Para calcular la imagen que contiene solo el fondo, se promedia una serie de imágenes anteriores. Para calcular la imagen de fondo en el instante t ,
donde N es el número de imágenes anteriores tomadas para promediar. Este promedio se refiere al promedio de píxeles correspondientes en las imágenes dadas. N dependería de la velocidad del video (cantidad de imágenes por segundo en el video) y la cantidad de movimiento en el video. [5] Después de calcular el fondo B ( x , y , t ), podemos restarlo de la imagen V ( x , y , t ) en el tiempo t = t y ponerle un umbral. Así, el primer plano es
donde Th es el umbral. De manera similar, también podemos usar la mediana en lugar de la media en el cálculo anterior de B ( x , y , t ).
El uso de umbrales globales e independientes del tiempo (el mismo valor Th para todos los píxeles de la imagen) puede limitar la precisión de los dos enfoques anteriores. [2]
Ejecución de Gauss promedio [ editar ]
Para este método, Wren et al. [6] proponen adaptar una función de densidad probabilística gaussiana (pdf) a la más recientemarcos Con el fin de evitar ajustar el pdf desde cero en cada nuevo tiempo de cuadro, se calcula un promedio de ejecución (o acumulativo en línea).
El pdf de cada píxel se caracteriza por la media. y varianza . La siguiente es una posible condición inicial (asumiendo que inicialmente cada píxel es el fondo):
dónde es el valor de la intensidad del píxel en el momento . Para inicializar la varianza, podemos, por ejemplo, usar la varianza en xey de una pequeña ventana alrededor de cada píxel.
Tenga en cuenta que el fondo puede cambiar con el tiempo (por ejemplo, debido a cambios de iluminación u objetos de fondo no estáticos). Para acomodar ese cambio, en cada cuadro., la media y la varianza de cada píxel se deben actualizar de la siguiente manera:
Dónde determina el tamaño de la ventana temporal que se utiliza para ajustar el pdf (generalmente ) y es la distancia euclidiana entre la media y el valor del píxel.
Distribución gaussiana para cada píxel.
Ahora podemos clasificar un píxel como fondo si su intensidad actual se encuentra dentro de algún intervalo de confianza de la media de su distribución:
donde el parametro es un umbral libre (usualmente ). Un mayor valor para Permite un fondo más dinámico, mientras que un menor aumenta la probabilidad de una transición de fondo a primer plano debido a cambios más sutiles.
En una variante del método, la distribución de un píxel solo se actualiza si se clasifica como fondo. Esto es para evitar que los objetos de primer plano recién introducidos se desvanezcan en el fondo. La fórmula de actualización para la media se cambia en consecuencia:
dónde cuando se considera primer plano y de otra manera. Así que cuando Es decir, cuando el píxel se detecta como primer plano, la media permanecerá igual. Como resultado, un píxel, una vez que se ha convertido en primer plano, solo puede volver a ser fondo cuando el valor de intensidad se acerca a lo que era antes de pasar a primer plano. Sin embargo, este método tiene varios problemas: solo funciona si todos los píxeles son inicialmente píxeles de fondo (o los píxeles del primer plano se anotan como tales). Además, no puede hacer frente a los cambios de fondo graduales: si un píxel se clasifica como primer plano durante un período de tiempo demasiado largo, la intensidad del fondo en esa ubicación podría haber cambiado (porque la iluminación ha cambiado, etc.). Como resultado, una vez que el objeto de primer plano se haya ido, la nueva intensidad de fondo podría no ser reconocida como tal.
Modelos de mezcla de fondo [ editar ]
El método de mezcla de Gaussianos se aproxima al modelar cada píxel como una mezcla de Gaussianos y utiliza una aproximación en línea para actualizar el modelo. En esta técnica, se supone que los valores de intensidad de cada píxel en el video se pueden modelar utilizando un modelo de mezcla gaussiana . [7] Una heurística simple determina qué intensidades son más probablemente del fondo. Luego, los píxeles que no coinciden con estos se denominan píxeles en primer plano. Los píxeles de primer plano se agrupan mediante el análisis de componentes conectados 2D . [7]
En cualquier momento t, un píxel particular (La historia de) es
Esta historia está modelada por una mezcla de distribuciones gaussianas K :
dónde
Primero, cada píxel se caracteriza por su intensidad en el espacio de color RGB. Luego, la probabilidad de observar el píxel actual viene dada por la siguiente fórmula en el caso multidimensional
Donde K es el número de distribuciones, ω es un peso asociado con el i Gaussiano en el tiempo t y µ, Σ son la media y la desviación estándar de dicho Gauss, respectivamente.
Una vez que se realiza la inicialización de los parámetros, se puede hacer una primera detección de primer plano y luego se actualizan los parámetros. La primera distribución gaussiana B que excede el umbral T se retiene para una distribución de fondo
Se considera que las otras distribuciones representan una distribución de primer plano. Entonces, cuando el nuevo marco entra a veces, se hace una prueba de coincidencia de cada píxel. Un píxel coincide con una distribución gaussiana si la distancia de Mahalanobis
donde k es un umbral constante igual a.Entonces, pueden ocurrir dos casos:
Caso 1: Se encuentra una coincidencia con uno de los k gaussianos. Para el componente coincidente, la actualización se realiza de la siguiente manera [8]
Power y Schoonees [3] utilizaron el mismo algoritmo para segmentar el primer plano de la imagen
La aproximación esencial a es dado por [9]
Caso 2: No se encontró ninguna coincidencia con ninguno de los Gaussianos En este caso, la distribución menos probable. Se sustituye por uno nuevo con parámetros.
Una vez que se realiza el mantenimiento de parámetros, se puede realizar la detección de primer plano y así sucesivamente. Se utiliza una aproximación de K-medias en línea para actualizar los gaussianos. Se han propuesto numerosas mejoras de este método original desarrollado por Stauffer y Grimson [7] y se puede encontrar una encuesta completa en Bouwmans et al. [8] Un método estándar de fondo adaptativo es promediar las imágenes a lo largo del tiempo, creando una aproximación de fondo que es similar a la escena estática actual, excepto donde ocurre el movimiento.
Encuestas [ editar ]
Varias encuestas que se refieren a categorías o subcategorías de modelos se pueden encontrar a continuación:
En el procesamiento de imágenes , la interpolación bicúbica a menudo se elige sobre la interpolación bilineal o la más cercana al vecino en el remuestreo de imágenes , cuando la velocidad no es un problema. En contraste con la interpolación bilineal, que solo tiene en cuenta 4 píxeles (2 × 2), la interpolación bicúbica considera 16 píxeles (4 × 4). Las imágenes remuestreadas con interpolación bicúbica son más suaves y tienen menos artefactos de interpolación .
Comparación de la interpolación bicubicacon algunas interpolaciones de 1 y 2 dimensiones. Los puntos negro y rojo / amarillo / verde / azul corresponden al punto interpolado y las muestras adyacentes, respectivamente. Sus alturas sobre el suelo corresponden a sus valores.
Computacion [ editar ]
Interpolación bicubica en la plaza. que consiste en 25 unidades de unidades parcheadas juntas. Interpolación bicubica según la implementación de Matplotlib . El color indica el valor de la función. Los puntos negros son las ubicaciones de los datos prescritos que se están interpolando. Observe cómo las muestras de color no son radialmente simétricas.
Interpolación bilineal en el mismo conjunto de datos anterior. Los derivados de la superficie no son continuos sobre los límites cuadrados.
Supongamos que los valores de la función y los derivados , y Son conocidos en las cuatro esquinas. , , y de la unidad cuadrada. La superficie interpolada puede entonces escribirse como
El problema de interpolación consiste en determinar los 16 coeficientes. . Pareo Con los valores de la función se obtienen cuatro ecuaciones:
Asimismo, ocho ecuaciones para los derivados en la y el direcciones:
Las expresiones anteriores han utilizado las siguientes identidades:
Este procedimiento produce una superficie. en el cuadrado de la unidad Eso es continuo y tiene derivados continuos. La interpolación bicúbica en una cuadrícula regular de tamaño arbitrario se puede realizar parcheando esas superficies bicúbicas, asegurando que las derivadas coincidan en los límites.
Agrupando los parámetros desconocidos. en un vector
y dejando
El sistema de ecuaciones anterior se puede reformular en una matriz para la ecuación lineal. .
Invertir la matriz da la ecuación lineal más útil. , dónde
Que permite Para ser calculado de forma rápida y sencilla.
Puede haber otra forma de matriz concisa para 16 coeficientes:
o
dónde
Encontrar derivadas de valores de función [ editar ]
Si las derivadas son desconocidas, normalmente se aproximan a los valores de la función en los puntos adyacentes a las esquinas del cuadrado unitario, por ejemplo, utilizando diferencias finitas .
Para encontrar cualquiera de los derivados individuales, o , utilizando ese método, encuentre la pendiente entre los dos puntos circundantes en el eje apropiado. Por ejemplo, para calcular. para uno de los puntos, encontrar para los puntos a la izquierda y derecha del objetivo y calcule su pendiente, y de manera similar para .
Para encontrar la derivada cruzada. , tome la derivada en ambos ejes, uno a la vez. Por ejemplo, uno puede usar primero el procedimiento para encontrar el derivadas de los puntos por encima y por debajo del punto de destino, luego use el procedimiento sobre esos valores (en lugar de, como de costumbre, los valores de para esos puntos) para obtener el valor de para el punto de destino. (O uno puede hacerlo en la dirección opuesta, primero calculando y entonces de esos. Los dos dan resultados equivalentes.
En los bordes del conjunto de datos, cuando a uno le faltan algunos de los puntos circundantes, los puntos que faltan se pueden aproximar mediante varios métodos. Un método simple y común es asumir que la pendiente desde el punto existente hasta el punto objetivo continúa sin más cambios, y usar esto para calcular un valor hipotético para el punto faltante.
Algoritmo de convolución bicúbica [ editar ]
La interpolación spline bicúbica requiere la solución del sistema lineal descrito anteriormente para cada celda de la cuadrícula. Se puede obtener un interpolador con propiedades similares aplicando una convolución con el siguiente kernel en ambas dimensiones:
dónde Generalmente se establece en −0.5 o −0.75. Tenga en cuenta que y para todos los enteros distintos de cero .
Este enfoque fue propuesto por Keys, quien mostró que produce convergencia de tercer orden con respecto al intervalo de muestreo de la función original. [1]
Si utilizamos la notación matricial para el caso común. , podemos expresar la ecuación de una manera más amigable:
para entre 0 y 1 para una dimensión. Tenga en cuenta que para la interpolación de convolución cúbica 1-dimensional se requieren 4 puntos de muestra. Para cada consulta, dos muestras están ubicadas a su izquierda y dos muestras a la derecha. Estos puntos se indexan de −1 a 2 en este texto. La distancia desde el punto indexado con 0 hasta el punto de consulta se denota por aquí.
Para dos dimensiones primero aplicada una vez en y otra vez en :
Uso en gráficos de computadora [ editar ]
La mitad inferior de esta figura es un aumento de la mitad superior, que muestra cómo se crea la nitidez aparente de la línea de la izquierda. La interpolación bicúbica provoca un exceso de corriente , lo que aumenta la agudeza .
El algoritmo bicúbico se usa con frecuencia para escalar imágenes y videos para su visualización (ver remuestreo de mapa de bits ). Conserva los detalles finos mejor que el algoritmo bilineal común .
No hay comentarios:
Publicar un comentario