• Portada
11/2014

Adaptación de los mundos real y virtual para la detección de peatones

Hoy en día, la detección de peatones es un componente clave en áreas como la automoción, la videovigilancia o las industrias de multimedia. Sin embargo, esta aplicación requiere un trabajo de recopilación y anotación de grandes cantidades de datos que son necesarios para su entrenamiento. Una investigación propone un nuevo método para reducir el esfuerzo requerido por dicho proceso de anotación que permite adaptar un modelo entrenado con datos sintéticos adquiridos de un videojuego para que funcione con éxito en datos reales.

La detección de peatones es de gran interés para muchas aplicaciones como los sistemas avanzados de asistencia a la conducción, la conducción autónoma, la videovigilancia o los sistemas multimedia. Los mejores detectores de peatones están compuestos por clasificadores basados en la apariencia y entrenados con datos anotados, es decir, con imágenes en las que la presencia de un peatón es anotada mediante un rectángulo. Sin embargo, este proceso de anotación es agotador y aburrido para las personas, es por ello que es importante reducir la intervención humana en este proceso utilizando mundos virtuales realistas procedentes de videojuegos. Estas herramientas permiten generar automáticamente anotaciones precisas de información visual variada.
 
Sin embargo, el uso de este tipo de datos lanza la siguiente pregunta: ¿Es posible para un modelo de peatón basado en apariencia con datos procedentes de un mundo virtual funcionar correctamente en el mundo real? Para contestar esta pregunta hemos realizado diferentes experimentos y hemos observado que sí que es posible.
 
Hemos observado que los detectores de peatones entrenados con datos del mundo virtual no funcionan tan bien como los entrenados con datos del mundo real. Este problema es conocido como desplazamiento de dominio e incluso ocurre cuando tratas de entrenar un dominio específico del mundo real (ejemplo: playa) y luego lo intentas aplicar en un dominio real diferente (ejemplo: montaña). Para resolver este problema hemos desarrollado diferentes técnicas y las hemos integrado todas en un mismo sistema llamado V-AYLA. Estas técnicas se basan en métodos que permiten adaptar un clasificador de peatones entrenándolo con unas pocas muestras de peatones del dominio de destino (mundo real) combinadas con muchas muestras procedentes del dominio de origen (mundo real). Con el extenso conjunto de experimentos presentados en nuestros artículos se puede confirmar que los detectores de peatones obtenidos mediante V-AYLA realmente consiguen adaptarse al dominio de destino.

 
Figura: Fotograma del vídeo de nuestro detector de peatones virtual adaptado para funcionar en el mundo real.

Los resultados presentados en este trabajo no se limitan a una propuesta de cómo adaptar un detector de peatones aprendido en un mundo virtual para que funcione en el mundo real, sino que van más allá y muestran una nueva metodología que en un futuro permitirá a los sistemas adaptarse automáticamente a nuevas y variadas situaciones para las que no estaban diseñados. Esperamos que este trabajo siente las bases para futuras investigaciones en esta área todavía sin explorar.
 
Esta investigación ha sido realizada en el grupo de investigación Advanced Driver Assistance Systems (ADAS) perteneciente al Centro de Visión de Computador (CVC) y financiada por los proyectos españoles del MICINN: TRA2011-29454-C03-01y TIN2011-29494-C03-02.
 
Figura superior izquierda: Fotograma del vídeo de una secuencia del mundo virtual (izquierda) con su correspondiente anotación automática (derecha).

David Vázquez

Referencias

Vázquez, David; Marín, Javier; López, Antonio M.; Ponsa, Daniel; Gerónimo, David. Virtual and Real World Adaptation for Pedestrian Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence 34(4): 797–809. 2014. doi: 10.1109/TPAMI.2013.163.

Xu, Jiaolong; Ramos, Sebastian; Vázquez, David; López, Antonio. Domain Adaptation of Deformable Part-Based Models. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2014. doi: 10.1109/TPAMI.2014.2327973.

 
View low-bandwidth version