Table Of Content

Introduccioń Me´todosde Soluciońde MDPs Lideandocon Aprendizaje por Refuerzo Espacios Grandes Otros Desarrollos Eduardo Morales, Hugo Jair Escalante Algunosde nuestros desarrollos INAOE (INAOE) 1/130 Contenido Introduccioń Me´todosde Soluciońde 1 Introduccioń MDPs Lideandocon Espacios Grandes 2 Me´todos de Solucioń de MDPs Otros Desarrollos Algunosde 3 Lideando con Espacios Grandes nuestros desarrollos 4 Otros Desarrollos 5 Algunos de nuestros desarrollos (INAOE) 2/130 Introduccioń Aprendizaje por Refuerzo Introduccioń Me´todosde Soluciońde • Unode losenfoques ma´susados dentrode aprendizaje MDPs es el aprendizaje supervisado a partir de ejemplos Lideandocon Espacios (pares entradas – salida provistos por el medio Grandes ambiente), para despue´s predecir la salida de nuevas Otros Desarrollos entradas. Algunosde nuestros • Cualquier sistema de prediccioń puede verse dentro de desarrollos este paradigma, sin embargo, ignora la estructura secuencial del mismo. • En algunos ambientes, muchas veces se puede obtener so´lo cierta retroalimentacioń o recompensa o refuerzo (e.g., gana, pierde). (INAOE) 3/130 Introduccioń Aprendizaje por Refuerzo Introduccioń Me´todosde Soluciońde MDPs • El refuerzo puede darse en un estado terminal y/o en Lideandocon estados intermedios. Espacios Grandes • Los refuerzos pueden ser componentes o sugerencias Otros de la utilidad actual a maximizar (e.g., buena movida). Desarrollos Algunosde • En aprendizaje por refuerzo (RL) el objetivo es nuestros desarrollos aprender co´mo mapear situaciones a acciones para maximizar una cierta senãl de recompensa. • Promesa: programar agentes mediante premio y castigo sin necesidad de especificar co´mo realizar la tarea (INAOE) 4/130 Introduccioń Diferencias con Otro Tipo de Aprendizaje Introduccioń Me´todosde Soluciońde MDPs Lideandocon EGsrapnadceioss 1 No se le presentan pares entrada - salida. Otros 2 El agente tiene que obtener experiencia u´til acerca de Desarrollos los estados, acciones, transiciones y recompensas de Algunosde nuestros manera activa para poder actuar de manera o´ptima. desarrollos 3 La evaluacioń del sistema ocurre en forma concurrente con el aprendizaje. (INAOE) 5/130 Introduccioń Aplicaciones Introduccioń Me´todosde Soluciońde MDPs • La primera aplicacioń en aprendizaje por refuerzo fue´ el Lideandocon programa para jugar damas de Samuel Espacios Grandes • Uso´ una funcioń lineal de evaluacioń con pesos usando Otros hasta 16 te´rminos Desarrollos Algunosde • Su programa era parecido a la ecuacioń de nuestros desarrollos actualizacioń de pesos, pero no usaba recompensa en los estados terminales, lo que hace que puede o no converger y puede aprender a perder. • Logro´ evitar e´sto haciendo que el peso para ganancia de material fuera siempre positivo. (INAOE) 6/130 Introduccioń Aplicaciones Introduccioń Me´todosde • Una de las ma´s conocidas es el control del peńdulo Soluciońde invertido. Controlar la posicioń x para que se mantenga MDPs Lideandocon aproximadamente derecho (θ ≈ π/2), manteniendose EGsrapnadceioss en los l´ımites de la pista. X,θ,X˙ y θ˙ son continuas. El Otros control es de tipo bang–bang. Desarrollos • Boxes (Michie, Chambers ’68) balanceaba el pendulo Algunosde nuestros por ma´s de una hora despue´s de 30 intentos (no desarrollos simulado) • Discretizaron el espacio en cajas. Se corr´ıa el sistema hasta que se ca´ıa el peńdulo o se sal´ıa de los l´ımites. Entonces se daba un refuerzo negativo a la u´ltima “caja” y se propagaba a la secuencia de “cajas” por las que paso´. (INAOE) 7/130 Introduccioń Aplicaciones Introduccioń • TD-gammon (Tesauro ’92) represento´ una funcioń de Me´todosde Soluciońde evaluacioń con una red neuronal de una sola capa MDPs intermedia con 40 nodos, que despue´s de 200,000 Lideandocon Espacios juegos de entrenamiento mejoro´ notablemente su Grandes desempenõ. Otros Desarrollos • Anãdiendo atributos adicionales a una red con 80 Algunosde nuestros nodos escondidos, despue´s de 300,000 juegos de desarrollos entrenamiento, juega como los 3 mejores jugadores del mundo. • Tambień se desarrollo´ un algoritmo de RL que actualiza las funciones de evaluacioń en un a´rbol de bu´squeda en juegos. En ajedrez mejora el puntaje de un programa de 1,650 a 2,150 despue´s de 308 juegos en 3 d´ıas. (INAOE) 8/130 Introduccioń Aplicaciones Introduccioń Me´todosde Soluciońde MDPs Algunas aplicaciones recientes incluyen: Lideandocon Espacios • Watson (IBM) - campeoń en el juego de Jeopardy Grandes (2011). Se uso´ RL para aprender un funcioń de valor Otros Desarrollos que se uso´ para generar “apuestas” y ganar ma´s Algunosde puntos. nuestros desarrollos • Atari 2600 - se aprendio´ como jugar 46 video juegos, superando en 29 a humanos • Go - campeoń en el juego de Go • Mu´ltiples aplicaciones en robo´tica (INAOE) 9/130 Introduccioń Aprendizaje por Refuerzo Introduccioń Me´todosde • En RL un agente trata de aprender un comportamiento Soluciońde MDPs mediante interacciones de prueba y error en un Lideandocon ambiente dina´mico e incierto Espacios Grandes • En general, al sistema no se le dice que´ accioń debe Otros Desarrollos tomar, sino que e´l debe de descubrir que´ acciones dan Algunosde el ma´ximo beneficio nuestros desarrollos • En un RL estandar, un agente esta´ conectado a un ambiente por medio de percepcioń y accioń • En cada interaccioń el agente recibe como entrada una indicacioń de su estado actual (s ∈ S) y selecciona una accioń (a ∈ A). La accioń cambia el estado y el agente recibe una senãl de refuerzo o recompensa (r ∈ R) (INAOE) 10/130

Description:

Espacios. Grandes. Otros. Desarrollos. Algunos de nuestros desarrollos. Aprendizaje por Refuerzo. Eduardo Morales, Hugo Jair Escalante. INAOE.

Aprendizaje por Refuerzo PDF

130 Pages·2017·4.41 MB·Spanish

Checking for file health...

Save to my drive

Quick download

Download

Download Aprendizaje por Refuerzo PDF Free - Full Version

by Unknow| 2017| 130 pages| 4.41| Spanish

Download Aprendizaje por Refuerzo by in PDF format completely FREE. No registration required, no payment needed. Get instant access to this valuable resource on PDFdrive.to!

Free Download PDF

About Aprendizaje por Refuerzo

Espacios. Grandes. Otros. Desarrollos. Algunos de nuestros desarrollos. Aprendizaje por Refuerzo. Eduardo Morales, Hugo Jair Escalante. INAOE.

Detailed Information

Author:	Unknown
Publication Year:	2017
Pages:	130
Language:	Spanish
File Size:	4.41
Format:	PDF
Price:	FREE

Download Free PDF

Safe & Secure Download - No registration required

Why Choose PDFdrive for Your Free Aprendizaje por Refuerzo Download?

100% Free: No hidden fees or subscriptions required for one book every day.
No Registration: Immediate access is available without creating accounts for one book every day.
Safe and Secure: Clean downloads without malware or viruses
Multiple Formats: PDF, MOBI, Mpub,... optimized for all devices
Educational Resource: Supporting knowledge sharing and learning

Frequently Asked Questions

Is it really free to download Aprendizaje por Refuerzo PDF?

Yes, on https://PDFdrive.to you can download Aprendizaje por Refuerzo by completely free. We don't require any payment, subscription, or registration to access this PDF file. For 3 books every day.

How can I read Aprendizaje por Refuerzo on my mobile device?

After downloading Aprendizaje por Refuerzo PDF, you can open it with any PDF reader app on your phone or tablet. We recommend using Adobe Acrobat Reader, Apple Books, or Google Play Books for the best reading experience.

Is this the full version of Aprendizaje por Refuerzo?

Yes, this is the complete PDF version of Aprendizaje por Refuerzo by Unknow. You will be able to read the entire content as in the printed version without missing any pages.

Is it legal to download Aprendizaje por Refuerzo PDF for free?

https://PDFdrive.to provides links to free educational resources available online. We do not store any files on our servers. Please be aware of copyright laws in your country before downloading.

The materials shared are intended for research, educational, and personal use in accordance with fair use principles.