Un lector de imágenes vale más que mil palabras

nvestigadores de la UGR logran una técnica que permite al ordenador interpretar el contenido de fotografías y vídeos

Quién no tiene almacenadas decenas, centenares o miles de fotografías en su ordenador clasificadas únicamente por fechas. Nombrarlas, detallar su contenido o especificar quiénes aparecen en ellas es una tarea ímproba que pocos tienen tiempo para realizar. Grandes compañías como Microsoft o Google trabajan a contrarreloj para dar con el programa que solucione este engorroso trámite, pero todavía no tienen la clave.
Dos investigadores de la Universidad de Granada y de la de Córdoba acaban de anunciar que han desarrollado una técnica informática que permite ‘enseñar’ a un ordenador a interpretar el contenido visual de una fotografía o una imagen en movimiento. «Nuestro trabajo -explica el investigador Manuel Jesús Marín, que trabaja en la Universidad de Córdoba- presenta pequeñas aportaciones para avanzar en ese ambicioso problema».

Este adelanto permite, por ejemplo, clasificar de forma automática fotografías según aparezcan o no personas en ellas o clasificar escenas de vídeo donde aparecen personas con una pose determinada.

Tal y como explican los responsables del proyecto, dirigido por el profesor Nicolás Pérez de la Blanca Capilla, del departamento de Ciencias de la Computación e Inteligencia Artificial de la UGR, en la actualidad, las búsquedas y clasificaciones de fotografías en computadoras se realizan según el nombre del fichero, carpeta o atributos como la fecha o el tamaño, pero no se hace uso de la información visual contenida en ellas.

El trabajo realizado permite utilizar este parámetro y a corto plazo hará que estas técnicas se puedan usar para clasificar escenas de vídeo según la acción que realizan en ellas las personas, indica la UGR en un comunicado.

Además de detectar cuándo aparecen personas en fotogramas de televisión, estas nuevas técnicas permiten estimar la posición de sus miembros superiores (cabeza, torso, brazos y antebrazos), así como llevar a cabo una clasificación automática de escenas de vídeo donde aparecen personas con una pose concreta, y reconocer acciones humanas en secuencias de vídeo, tales como caminar, saltar y agacharse, entre otras.

La investigación parte de un proyecto de fin de carrera titulado Plataforma software para generación de imágenes panorámicas a partir de tomas de vídeo, que acabó concretándose en un software denominado Mosaics, realizado por Marín Jiménez conjuntamente con Carlos García Martínez y Francisco Manuel Fernández Adarve, bajo la dirección de Pérez de la Blanca Capilla.

En la actualidad existe un gran interés mundial por parte de multitud de compañías potentes en conseguir que los computadores sean capaces de interpretar de forma automática el contenido visual de las imágenes y vídeo.

El ingeniero en Informática Marín Jiménez es especialista en tecnologías multimedia y miembro de la Asociación Española de Reconocimiento de Formas y Análisis de Imágenes (Aerfai), ha trabajado para el departamento CCIA de la UGR y actualmente ejerce como profesor en la Universidad de Córdoba.

Los resultados de esta investigación han sido presentados ya en importantes congresos internacionales como el International Conference in Pattern Recognition (ICPR) en 2006, o el Computer Vision and Pattern Recognition (CVPR) en 2008 y 2009.

Parte de dichos trabajos han sido desarrollados en colaboración con investigadores de la Universidad de Oxford y la Escuela Politécnica Federal (ETH) de Zurich.

Descargar

Inicio / Historico

Un lector de imágenes vale más que mil palabras

31/03/2010

¿Qué son las cookies?

Tipos de cookies

Cookies utilizadas en la web

Cómo modificar la configuración de las cookies