Enseñando a las máquinas a enseñarse a sí mismas

¿Estás cansado de decirles a las máquinas qué hacer y qué no hacer? Esta es una parte de la normalidad en la vida de la gente normal: operar lavaplatos, teléfonos inteligentes y automóviles, todo exige nuestras órdenes y control. También es una parte aún más importante de la vida de los investigadores como yo, que trabajan en inteligencia artificial y aprendizaje automático.

Mucho de esto es incluso más aburrido que conducir o hablar con un asistente virtual. La forma más común de enseñar a las computadoras nuevas habilidades, tales como distinguir las fotos de los perros de las de los gatos, implica una gran cantidad de interacción o preparación humana. Por ejemplo, si una computadora mira una imagen de un gato y la etiqueta «perro», tenemos que decirle que está mal.

Pero cuando eso se vuelve demasiado engorroso y agotador, es hora de construir computadoras que puedan enseñarse a sí mismas y retener lo que aprenden. Mi equipo de investigación y yo hemos dado un primer paso hacia el tipo de aprendizaje que las personas imaginan que los robots del futuro serán capaces de aprender mediante la observación y la experiencia, en lugar de necesitar que se les informe directamente cada pequeño paso de lo que deben hacer. Esperamos que las futuras máquinas sean tan inteligentes como lo somos nosotros, por lo que tendrán que ser capaces de aprender como nosotros.

Establecer robots libres para aprender por su cuenta

En los métodos más básicos de capacitación de computadoras, la máquina puede usar solo la información que le han enseñado específicamente ingenieros y programadores. Por ejemplo, cuando los investigadores quieren que una máquina pueda clasificar las imágenes en diferentes categorías, como distinguir entre gatos y perros, primero necesitamos algunas imágenes de referencia de otros perros y gatos para empezar. Mostramos estas imágenes a la máquina y, cuando adivina correctamente damos retroalimentación positiva, y cuando adivina mal aplicamos retroalimentación negativa.

Este método, llamado refuerzo de aprendizaje, usa comentarios externos para enseñar al sistema a cambiar su funcionamiento interno para adivinar mejor la próxima vez. Este autocambio implica identificar los factores que hicieron las mayores diferencias en la decisión del algoritmo, reforzando la precisión y desalentando las decisiones equivocadas.

Otra capa de avance establece otro sistema informático que actúa como supervisor, en lugar de un humano. Esto les permite a los investigadores crear varias máquinas clasificadoras de perro-gato, cada una con diferentes atributos. Tal vez algunas miran más de cerca el color, mientras que otras miran la forma de la oreja o la nariz, y evalúan cómo de bien funcionan. Cada vez una máquina trabaja, mira una imagen, toma una decisión sobre lo que ve y verifica el resultado con el supervisor automático para obtener comentarios.

Alternativamente o además, los investigadores desactivamos las máquinas clasificadoras que no funcionan bien e introducimos nuevos cambios en las que hasta ahora han funcionado. Repetimos esto muchas veces, introduciendo pequeñas mutaciones en sucesivas generaciones de máquinas clasificadoras, mejorando lentamente sus habilidades. Esta es una forma digital de evolución darwiniana, y es por eso, por lo que este tipo de entrenamiento se denomina «algoritmo genético». Pero incluso eso requiere mucho esfuerzo humano, y separar a gatos y perros es una tarea extremadamente simple para una persona.

Aprendiendo como personas

Nuestra investigación está trabajando hacia un cambio de un presente, en el que las máquinas aprenden tareas simples con supervisión humana, a un futuro en el que aprendan procesos complicados por sí mismas. Esto refleja el desarrollo de la inteligencia humana: cuando éramos bebés estábamos equipados con receptores de dolor que nos advertían sobre el daño físico, y teníamos el instinto de llorar cuando teníamos hambre o necesitábamos algo.

Los bebés humanos aprenden mucho solos, y también aprenden mucho de la enseñanza directa de los padres, específicamente vocabulario y comportamientos específicos. En el proceso, aprenden no solo cómo interpretar la retroalimentación positiva y negativa, sino cómo diferenciar, todo por su cuenta. No nacemos sabiendo que la frase «buen trabajo» significa algo positivo, y que la amenaza de un «tiempo de espera» implica consecuencias negativas. Pero lo resolvemos, y bastante rápido. Como adultos, podemos establecer nuestros propios objetivos y aprender a lograrlos de manera totalmente autónoma; somos nuestros propios maestros.

Nuestros cerebros agregan cada nueva experiencia y conocimiento a nuestras habilidades y recuerdos, usando una capacidad llamada neuroplasticidad para crear y almacenar nuevas conexiones entre las neuronas. Hay varias formas de usar la neuroplasticidad en los sistemas computacionales, pero estos métodos computacionales todavía dependen de los comentarios de un supervisor externo: algo externo les dice qué es correcto e incorrecto. (El método llamado «aprendizaje no supervisado» no es un nombre preciso: no implica algoritmos que puedan cambiar ellos mismos, y usa un proceso bastante diferente de lo que los humanos entenderían como «aprendizaje»).

Descubriendo un rompecabezas de laberinto

La investigación reciente que mi grupo y yo hemos realizado da un primer paso hacia los sistemas de IA con neuroplasticidad que no requiere supervisión. Un problema clave al hacer esto consiste en cómo lograr, que una computadora se retroalimente de alguna manera significativa o efectiva.

Realmente no sabíamos cómo hacer eso, de hecho, es una de las cosas que estamos aprendiendo al analizar nuestros resultados. Utilizamos Markov Brains, un tipo de red neuronal artificial, como base de nuestra investigación. Pero en lugar de diseñarla directamente, usamos otra técnica de aprendizaje automático, un algoritmo genético, para entrenar estos cerebros de Markov.

El reto que planteamos fue resolver un laberinto utilizando cuatro botones, que se movían hacia adelante, hacia atrás, hacia la izquierda y hacia la derecha. Pero las funciones de los controles cambiaban para cada nuevo laberinto, por lo que el botón que significaba «último juego» podría significar «izquierda» o «hacia atrás» en el siguiente. Para una persona que resuelva este desafío, la recompensa no sería solo navegar a través del laberinto sino también descubrir cómo han cambiado los botones, durante el aprendizaje.

Evolucionando como un buen buscador de soluciones

En nuestra configuración, los Markov Brains que resolvieron los laberintos más rápidamente, los que aprendieron los controles y se movieron a través del laberinto más rápidamente, sobrevivieron al proceso de selección genética. Al comienzo del proceso, las acciones de cada algoritmo eran bastante aleatorias. Al igual que con los jugadores humanos, los botones que golpean al azar rara vez atraviesan el laberinto, pero esa estrategia tendrá más éxito que no hacer nada en absoluto, o simplemente presionar el mismo botón una y otra vez.

Si nuestra investigación hubiera implicado mantener constantes los botones y la estructura del laberinto, los cerebros de Markov eventualmente aprenderían lo que significaban los botones y cómo atravesar el laberinto más rápidamente. Inmediatamente tocarían la secuencia correcta de botones, sin prestar atención al entorno. Ese no es el tipo de aprendizaje que estamos buscando.

Aleatorizando tanto las configuraciones de los botones como la estructura del laberinto, obligamos a los cerebros de Markov a prestar más atención, a presionar un botón y observar el cambio a la situación: ¿en qué dirección se movió ese botón a través del laberinto, hacia un callejón sin salida, una pared o un camino abierto. Este es un aprendizaje más avanzado, sin duda. Pero un Markov Brain que evolucionó para navegar utilizando solo una o dos configuraciones de botón aún podría funcionar bien: resolvería al menos algunos laberintos muy rápido, incluso si no resolvía los otros en absoluto. Eso no proporciona la adaptabilidad al entorno que estamos buscando.

El algoritmo genético, que decide qué Markov Brains seleccionar para una mayor evolución y cuál descontinuar, es la clave para optimizar la respuesta al medio ambiente. Le dijimos que seleccionara los cerebros de Markov que fueran los mejores solucionadores generales de laberintos (en lugar de aquellos que eran deslumbrantemente rápidos en algunos laberintos, pero completamente incapaces de resolver otros), eligiendo generalistas sobre especialistas.

Durante muchas generaciones, este proceso produce Markov Brains que son particularmente observadores de los cambios que resultan de presionar un botón en particular y muy buenos para interpretar lo que significan: «Presionar el botón que se mueve hacia la izquierda me llevó a un callejón sin salida; Debería presionar el botón que se mueve hacia la derecha para salir de allí «.

Es esta capacidad de interpretar las observaciones lo que libera el algoritmo genético del sistema cerebral de Markov de la retroalimentación externa del aprendizaje supervisado. Los cerebros de Markov han sido seleccionados específicamente por su capacidad para crear retroalimentación interna que cambia su estructura de tal forma, que conduce a presionar el botón correcto en el momento correcto con mayor frecuencia. Técnicamente, desarrollamos Markov Brains para poder aprender por sí mismos.

Esto es de hecho muy similar a cómo aprenden los humanos: Probamos algo, miramos lo que sucedió y usamos los resultados para mejorar la próxima vez. Todo eso sucede dentro de nuestros cerebros, sin necesidad de una guía externa.

Nuestro trabajo agrega un nuevo método al campo del aprendizaje automático, y en nuestra opinión da un paso importante hacia el desarrollo de lo que se denomina «inteligencia artificial general», sistemas que pueden aprender nueva información y nuevas habilidades por sí mismos. También abre la puerta al uso de sistemas informáticos para probar cómo realmente sucede el aprendizaje.

Esto es muy similar a cómo aprenden los humanos: Intentamos algo, miramos lo que pasó y usamos los resultados para mejorar la próxima vez. Todo eso sucede dentro de nuestros cerebros, sin necesidad de un guía externo.

Nuestro trabajo añade un nuevo método al campo del aprendizaje automático y, en nuestra opinión, da un gran paso hacia el desarrollo de lo que se denomina «inteligencia artificial general», sistemas que pueden aprender por sí mismos nueva información y nuevas habilidades. También abre la puerta para usar sistemas de computación para probar cómo ocurre el aprendizaje.

Fte. Popular Mechanics