Inteligencia Artificial: Conoce el aprendizaje por refuerzo

Inteligencia Artificial: Conoce el aprendizaje por refuerzo

Juan Gabriel Gomila Juan Gabriel Gomila
4 minutos

Leer el artículo
Audio generated by DropInBlog's Blog Voice AI™ may have slight pronunciation nuances. Learn more

Hoy vamos a hablar sobre la Inteligencia Artificial y el Aprendizaje por Refuerzo. En la psicología conductista se hace un especial hincapié en describir las leyes generales que rigen la conducta voluntaria de las personas.

Uno de los conceptos que manejan para ello es el de 'condicionamiento operante'. Al que definen como un proceso de aprendizaje mediante el cual una acción en particular es seguida por algo deseable (haciendo más probable que el sujeto repita la acción) o por algo no deseable (disuadiendo de volver realizarla).

Así, por ejemplo, estudiamos por qué nos satisface sacar notas más altas. O jugamos a un videojuego porque nos satisface jugar. Y para satisfacer esos estímulos positivos (refuerzos), estudiamos / jugamos más horas y recurrimos a procesos de prueba y error para evaluar nuevas estrategias de estudio / juego.

Básicamente esto quiere decir que aprendemos gracias al condicionamiento operante.

 

Ventajas de la Inteligencia Artificial

Pues de aquí viene la palabra mágica. El Reinforcement Learning se basa en aplicar exactamente este mismo principio a las inteligencias artificiales con el fin de que puedan aprender por sí mismas.

Y es que las IAs cuentan con dos ventajas de las que nosotros los humanos no disponemos. No se cansan ni se aburren, y realizan sus tareas de forma realmente rápida.

Ambos factores les permiten sacar un gran rendimiento al proceso de prueba / error. Pueden ganar y perder millones de partidas de un videojuego tomando nota de qué decisiones les llevaron en cada caso a la victoria o a la derrota. Privilegiando unas y descartando otras hasta que su estrategia sea absolutamente perfecta.

Y donde decimos 'videojuego', podemos hablar igualmente de una amplia gama de tareas siempre que la IA pueda recibir un feedback de lo acertado de sus decisiones.

Uno de los aspectos fundamentales del aprendizaje por refuerzo es que resuelve el difícil problema de correlacionar acciones inmediatas con sus consecuencias a largo plazo. Como los humanos en la vida real, esta clase de algoritmos a veces tienen que operar en un entorno de retorno demorado, donde puede ser difícil entender qué acción conduce a qué resultado en muchos pasos de tiempo.

aprendizaje por refuerzo

Mapa de algoritmos de aprendizaje por refuerzo

En particular, y durante los últimos años, el aprendizaje por refuerzo se ha convertido en un campo de la inteligencia artificial que se ha especializado hasta límites insospechables.

Y es por eso que compartimos contigo el siguiente mapa de algoritmos: nuestra cheatsheet creada por Super Data Science.

Con las novedades en cada rama del aprendizaje por refuerzo para que conozcas los algoritmos que están cambiando las reglas de juego.

En particular, si te interesa conocer todas las ramas del aprendizaje por refuerzo, no dejes de visitar nuestra página de cursos.

Podrás tomar la carrera de Inteligencia Artificial paso a paso. Todo ello con el objetivo de ir cubriendo todos estos modelos uno por uno.

En particular en nuestro curso Aprendizaje por Refuerzo Profundo 2.0 publicado en Frogames Formación podrás aprender acerca de un nuevo modelo de IA increíblemente inteligente, el cual se denomina el Gradiente de Política Determinista de doble retardo (Twin Delayed DDPG, en inglés). Éste combina las técnicas más avanzadas en Inteligencia Artificial, incluyendo el Aprendizaje de Doble Profundidad, Políticas de Gradiente y Actor-Crítico.

Como ves, se combinan diferentes ramas de la IA para dar lugar a algoritmos más poderosos.

¡Nos vemos en clase!

« Volver al Blog

Obtener mi regalo ahora