LONDRES,-  Entre los grandes desafíos del siglo 21 es hacer que los ordenadores tengan mayor similitud con el cerebro humano, que hablen, entiendan y resuelvan problemas y ahora que reconozcan las imágenes. Durante mucho tiempo, las computadoras más inteligentes carecieron eran ciegas. Ahora, ellos pueden ver.

La idea es formar algoritmos en grandes bases de datos que les permita la capacidad de predecir resultados con los nuevos datos.

He aquí un ejemplo sencillo: queremos predecir la edad de un árbol gracias a su diámetro. Esta base de datos contiene sólo tres tipos de datos: de entrada (x, diámetro de los árboles), salida (Y, la edad del árbol) y características (a, b: tipo de árbol, zona de bosque, …). Estos datos están unidos por una función lineal y = ax + b. Con una formación de esta base de datos, algoritmos de aprendizaje automático serán capaces de entender la correlación entre X e Y y definir el valor exacto de características. Una vez completada esta fase de entrenamiento, los ordenadores serán capaces de predecir la edad del árbol (y) de cualquier nuevo diámetro (x).

Esta es una descripción demasiado simplista; se vuelve más complicado cuando hablamos de reconocimiento de imágenes.

Para un ordenador, una imagen de millones de píxeles – que es una gran cantidad de datos a procesar y demasiadas entradas para un algoritmo. Los investigadores tuvieron que encontrar un atajo. La primera solución fue definir las características intermedias.

Imagine que quiere ordenadores para reconocer un gato. En primer lugar, un ser humano tiene que definir todas las características principales de un gato: una cabeza redonda, dos orejas afiladas, un bozal … Una vez que se definen las características clave, un algoritmo de red neuronal bien entrenado, con un nivel suficiente de precisión , analizarlos y determinar si la imagen es un gato.

¿Qué pasa si tomamos un elemento más complejo?

Por ejemplo, ¿cómo describiría un vestido a una computadora?

Se obtiene el primer límite del aprendizaje básico de la máquina para el reconocimiento de imágenes: A menudo somos incapaces de definir las características discriminantes que sería cerca de un potencial de reconocimiento de 100 por ciento.

En la década de 2000, Fei-Fei Li, directora del Laboratorio de Inteligencia Artificial de laboratorio y Visión de Stanford, tenía una buena intuición: ¿Cómo los niños aprenden los nombres de objetos? ¿Cómo son capaces de reconocer un gato o un vestido? Los padres no enseñan esto mostrando características, sino más bien al nombrar el objeto / animal cada vez que su hijo ve. Capacitan a niños con ejemplos visuales. ¿Por qué no podemos hacer lo mismo para los ordenadores?

Sin embargo, dos cuestiones se mantuvieron: bases de datos de disponibilidad y capacidad de cálculo.

En primer lugar, ¿cómo podemos obtener una base de datos lo suficientemente grande como para “enseñar a las computadoras aprender a ver”? Para abordar esta cuestión, Li y su equipo pusieron en marcha el proyecto de Red de imagen en 2007. La colaboración con más de 50.000 personas en 180 países, se creó la base de datos de la imagen más grande en el mundo en 2009: 15 millones de anuncios con nombre y las imágenes, que abarcan 22.000 categorías.

Actualmente, las computadoras pueden entrenar a sí mismos en bases de datos masivas de imágenes para poder identificar las características clave, y sin intervención humana. Al igual que un niño de tres años de edad, ordenadores ven millones de imágenes con nombre y entender por sí mismos las características principales de cada elemento. Estos complejos algoritmos de extracción de características utilizan redes neuronales profundas y requieren miles de millones de nodos.

Es sólo el comienzo para el aprendizaje profundo: Hemos conseguido hacer que las computadoras ven como un niño de tres años de edad, pero, como dijo Li en una charla de TED, “el verdadero reto está por delante: ¿Cómo podemos ayudar a nuestro equipo para ir de niño de tres a 13 años de edad, y mucho más allá? “

tedcrunch/r3