Table Of ContentIntroduccio´n
Me´todosde
Solucio´nde
MDPs
Lideandocon Aprendizaje por Refuerzo
Espacios
Grandes
Otros
Desarrollos
Eduardo Morales, Hugo Jair Escalante
Algunosde
nuestros
desarrollos
INAOE
(INAOE) 1/130
Contenido
Introduccio´n
Me´todosde
Solucio´nde 1 Introduccio´n
MDPs
Lideandocon
Espacios
Grandes 2 Me´todos de Solucio´n de MDPs
Otros
Desarrollos
Algunosde
3 Lideando con Espacios Grandes
nuestros
desarrollos
4 Otros Desarrollos
5 Algunos de nuestros desarrollos
(INAOE) 2/130
Introduccio´n
Aprendizaje por Refuerzo
Introduccio´n
Me´todosde
Solucio´nde • Unode losenfoques ma´susados dentrode aprendizaje
MDPs
es el aprendizaje supervisado a partir de ejemplos
Lideandocon
Espacios (pares entradas – salida provistos por el medio
Grandes
ambiente), para despue´s predecir la salida de nuevas
Otros
Desarrollos entradas.
Algunosde
nuestros • Cualquier sistema de prediccio´n puede verse dentro de
desarrollos
este paradigma, sin embargo, ignora la estructura
secuencial del mismo.
• En algunos ambientes, muchas veces se puede
obtener so´lo cierta retroalimentacio´n o recompensa o
refuerzo (e.g., gana, pierde).
(INAOE) 3/130
Introduccio´n
Aprendizaje por Refuerzo
Introduccio´n
Me´todosde
Solucio´nde
MDPs • El refuerzo puede darse en un estado terminal y/o en
Lideandocon estados intermedios.
Espacios
Grandes • Los refuerzos pueden ser componentes o sugerencias
Otros
de la utilidad actual a maximizar (e.g., buena movida).
Desarrollos
Algunosde • En aprendizaje por refuerzo (RL) el objetivo es
nuestros
desarrollos aprender co´mo mapear situaciones a acciones para
maximizar una cierta sen˜al de recompensa.
• Promesa: programar agentes mediante premio y
castigo sin necesidad de especificar co´mo realizar la
tarea
(INAOE) 4/130
Introduccio´n
Diferencias con Otro Tipo de Aprendizaje
Introduccio´n
Me´todosde
Solucio´nde
MDPs
Lideandocon
EGsrapnadceioss 1 No se le presentan pares entrada - salida.
Otros 2 El agente tiene que obtener experiencia u´til acerca de
Desarrollos
los estados, acciones, transiciones y recompensas de
Algunosde
nuestros manera activa para poder actuar de manera o´ptima.
desarrollos
3 La evaluacio´n del sistema ocurre en forma concurrente
con el aprendizaje.
(INAOE) 5/130
Introduccio´n
Aplicaciones
Introduccio´n
Me´todosde
Solucio´nde
MDPs • La primera aplicacio´n en aprendizaje por refuerzo fue´ el
Lideandocon programa para jugar damas de Samuel
Espacios
Grandes • Uso´ una funcio´n lineal de evaluacio´n con pesos usando
Otros hasta 16 te´rminos
Desarrollos
Algunosde • Su programa era parecido a la ecuacio´n de
nuestros
desarrollos actualizacio´n de pesos, pero no usaba recompensa en
los estados terminales, lo que hace que puede o no
converger y puede aprender a perder.
• Logro´ evitar e´sto haciendo que el peso para ganancia
de material fuera siempre positivo.
(INAOE) 6/130
Introduccio´n
Aplicaciones
Introduccio´n
Me´todosde • Una de las ma´s conocidas es el control del pe´ndulo
Solucio´nde
invertido. Controlar la posicio´n x para que se mantenga
MDPs
Lideandocon aproximadamente derecho (θ ≈ π/2), manteniendose
EGsrapnadceioss en los l´ımites de la pista. X,θ,X˙ y θ˙ son continuas. El
Otros control es de tipo bang–bang.
Desarrollos
• Boxes (Michie, Chambers ’68) balanceaba el pendulo
Algunosde
nuestros por ma´s de una hora despue´s de 30 intentos (no
desarrollos
simulado)
• Discretizaron el espacio en cajas. Se corr´ıa el sistema
hasta que se ca´ıa el pe´ndulo o se sal´ıa de los l´ımites.
Entonces se daba un refuerzo negativo a la u´ltima
“caja” y se propagaba a la secuencia de “cajas” por las
que paso´.
(INAOE) 7/130
Introduccio´n
Aplicaciones
Introduccio´n
• TD-gammon (Tesauro ’92) represento´ una funcio´n de
Me´todosde
Solucio´nde evaluacio´n con una red neuronal de una sola capa
MDPs
intermedia con 40 nodos, que despue´s de 200,000
Lideandocon
Espacios juegos de entrenamiento mejoro´ notablemente su
Grandes
desempen˜o.
Otros
Desarrollos
• An˜adiendo atributos adicionales a una red con 80
Algunosde
nuestros nodos escondidos, despue´s de 300,000 juegos de
desarrollos
entrenamiento, juega como los 3 mejores jugadores del
mundo.
• Tambie´n se desarrollo´ un algoritmo de RL que actualiza
las funciones de evaluacio´n en un a´rbol de bu´squeda
en juegos. En ajedrez mejora el puntaje de un
programa de 1,650 a 2,150 despue´s de 308 juegos en
3 d´ıas.
(INAOE) 8/130
Introduccio´n
Aplicaciones
Introduccio´n
Me´todosde
Solucio´nde
MDPs Algunas aplicaciones recientes incluyen:
Lideandocon
Espacios • Watson (IBM) - campeo´n en el juego de Jeopardy
Grandes
(2011). Se uso´ RL para aprender un funcio´n de valor
Otros
Desarrollos que se uso´ para generar “apuestas” y ganar ma´s
Algunosde puntos.
nuestros
desarrollos • Atari 2600 - se aprendio´ como jugar 46 video juegos,
superando en 29 a humanos
• Go - campeo´n en el juego de Go
• Mu´ltiples aplicaciones en robo´tica
(INAOE) 9/130
Introduccio´n
Aprendizaje por Refuerzo
Introduccio´n
Me´todosde • En RL un agente trata de aprender un comportamiento
Solucio´nde
MDPs mediante interacciones de prueba y error en un
Lideandocon ambiente dina´mico e incierto
Espacios
Grandes
• En general, al sistema no se le dice que´ accio´n debe
Otros
Desarrollos tomar, sino que e´l debe de descubrir que´ acciones dan
Algunosde el ma´ximo beneficio
nuestros
desarrollos • En un RL estandar, un agente esta´ conectado a un
ambiente por medio de percepcio´n y accio´n
• En cada interaccio´n el agente recibe como entrada una
indicacio´n de su estado actual (s ∈ S) y selecciona una
accio´n (a ∈ A). La accio´n cambia el estado y el agente
recibe una sen˜al de refuerzo o recompensa (r ∈ R)
(INAOE) 10/130
Description:Espacios. Grandes. Otros. Desarrollos. Algunos de nuestros desarrollos. Aprendizaje por Refuerzo. Eduardo Morales, Hugo Jair Escalante. INAOE.