El español que enseña a las máquinas a predecir qué pasará en una película o reconocer muebles de Ikea


Aunque las máquinas pueden ya grabar imágenes y visualizarlas, conseguir que entiendan aquello que observan no es tarea fácil. Acciones como reconocer lo que hay en una habitación o identificar qué muestra una fotografía suponen un gran reto para la inteligencia artificial que, en la mayoría de ocasiones, no comprende aún qué es aquello que está viendo. Sin embargo, el trabajo del investigador español Antonio Torralba consigue ‘abrirles los ojos’ y ayudarles a interpretar las imágenes que procesan. Es decir, logra que su visión también sea inteligente.

De origen mallorquín, este científico afincado en Estados Unidos trabaja en el Laboratorio de Ciencias Informáticas y de Inteligencia Artificial del prestigioso Instituto Tecnológico de Massachussets. Allí, empleando el ‘machine learning’ e inmensas bases de datos, intenta crear combinaciones de algoritmos que ayuden a las máquinas a entender las imágenes. Por el momento, las victorias llegan poco a poco, pero ya ha conseguido algunos grandes logros.

Imaginemos, por ejemplo, que a un espectador le muestran unas fotografías. En ellas se ve a una persona vestida de traje, sentada detrás de su mesa y a un segundo individuo, con traje también, entrando al despacho. En ese momento, la primera persona se levanta tendiendo la mano. A continuación se detiene el vídeo y se le pregunta al espectador qué es lo que sucederá después en la grabación.

Normalmente, el participante en este breve experimento ofrecerá una respuesta sin demasiados problemas y dirá, seguramente, que se van a estrechar la mano y que se trata de una entrevista o de una reunión de trabajo. Conseguir que sea una máquina la que ofrezca esta respuesta, ‘imaginando’ la posible continuación después de visionar las mismas imágenes, no es tan fácil. Pero Torralba lo ha conseguido.

Entrenando a una inteligencia artificial mediante vídeos de YouTube y programas de televisión como ‘The Office’ y ‘Mujeres Desesperadas’, el investigador ha logrado que el sistema pueda predecir si dos individuos se van a abrazar, a besar, a dar la mano o a chocar los cinco. Y aunque los seres humanos aprendemos a anticipar acciones a través de la experiencia, que los ordenadores sean capaces de adquirir ese sentido común, incluso después de más de 600 horas de vídeo, no es tarea fácil. Sin embargo, gracias al ‘deep learning’, la máquina fue capaz de encontrar sus propios patrones, aprendiendo por el camino a analizar la imagen como un conjunto y no pixel a pixel.

Pero no es lo único que lograron enseñarle. En un segundo estudio, al algoritmo se le mostraba una imagen de vídeo y tenía que adivinar qué objeto aparecería cinco segundos más tarde. De esta forma, ver un microondas en funcionamiento podría indicar la futura presencia de una taza de café. En este caso, los científicos consiguieron que la máquina mejorara en un 30 % su capacidad de acierto y consiguieron —aunque parezca una cifra baja—  que fuera totalmente precisa en un 11 % de las ocasiones.

Sin embargo, predecir qué es lo que va a suceder en el fragmento de una serie, en una película, o en un vídeo doméstico no ha sido lo único que la inteligencia artificial con la que trabaja Torralba ha aprendido a ‘ver’ y a ‘entender’. En otro proyecto este investigador consiguió que el ‘ software’ fuera capaz de identificar distintos muebles de IKEA en imágenes y de encajar los modelos 3D disponibles en las fotografías.

El científico y su equipo eligieron los muebles del gigante sueco como punto de partida para que la máquina aprendiera a reconocer formas porque ya existía, aunque parezca sorprendente, un número muy alto de modelos de 3D de objetos de la compañía elaborados por fans. Pero además, acabó teniendo otra ventaja: las fotografías con muebles de IKEA eran reales y de particulares, por lo que el ‘software’ tuvo que aprender a reconocer muebles ligeramente mal montados, llenos de cosas y con distintos colores y texturas.

Identificar lugares distinguiendo si se tratan de ubicaciones al aire libre o cubiertas y aportando sus características principales, realizar un dibujo después de observar la fotografía de una habitación o leer un libro y usar sus detalles para dar más datos sobre las imágenes de su versión cinematográfica han sido otras de las habilidades adquiridas por la inteligencia artificial en las que trabajan el español y su equipo. Pero, más allá de cada pequeña conquista, todos estos logros forman parte de una carrera de fondo cuyo objetivo final es que las máquinas puedan mirar y entender lo que ven mejor que los propios humanos.

De esta forma, su visión inteligente les permitirá crear modelos tridimensionales en segundos, poder identificar qué hay en una estancia independientemente del tipo de luz presente y percibir detalles que escapen a la, en un futuro, más imperfecta vista humana. Además no sufrirán miopías o astigmatismo, ni se despistarán o aburrirán cuando tengan que revisar horas de metraje. Tampoco olvidarán ningún detalle.

Hasta que esto suceda y la visión inteligente de los ordenadores pueda emplearse en campos tan diversos como la seguridad, gracias al reconocimiento facial, o la medicina, con la detección cada vez más rápida y certera de tumores, investigadores como Torralba seguirán trabajando, enseñando a las máquinas a mirar, poco a poco, de forma inteligente.


Con información de MIT News, Antonio Torralba y The International Conference on Computer Vision. Las imágenes son propiedad de Jiuguang Wang, Youtube y Adam Levine.

Otras historias para no perder de vista:

–La ciencia entra mejor con King Kong, Bob Esponja y Flubber

–El guardián de las joyas del ‘pinball’, sin sucesor: “Los jóvenes son estúpidos”

–Las increíbles predicciones del abuelo de la ciencia ficción, en un videojuego

–Sin traductor y en inglés: que nuestros políticos hablen con Trump es misión imposible



https://www.cookingideas.es/maquinas-vision-20170221.html