• Live training

Workshop Reinforcement Learning


This course is designed as a thorough introduction into Reinforcement Learning.

It needs a good understanding of Basic Machine Learning and a fair probabilities foundation.

 

 

Esta formação é ministrada em Inglês.

Em parceria com a entidade acreditada:

Cursos relacionados

Pré-requisitos

Nice to have:

  • Basic Deep Learning
    • Neurons
    • Types of Layers
    • Networks
    • Loss Functions
    • Optimizers
    • Overfitting
    • Tensorflow

Programa

  • K-Armed Bandit Problem
  • Markov Decision Processes
  • Value Functions and Bellman Equations
  • Dynamic Programming
  • Monte Carlo for Prediction and Control
  • On-policy Prediction with Approximation

K-Armed Bandit Problem

  • Sequential Decision Making with Evaluative Feedback
  • Learning Action Values
  • Estimating Action Values Incrementally
  • Optimistic initial values
  • UCB Action Selection
  • Contextual Bandits for Real World RL

Hands-on Lab: Understand expected values from different gambling games

Markov Decision Processes

  • Examples of MDPs
  • The Reward Hypothesis
  • Continuing Tasks
  • Episodic and Continuing Tasks

Hands-on Lab: Understand Markov Decision Processes by creating a classifier for thrash random writing

Value Functions and Bellman Equations

  • Specifying Policies
  • Value Functions
  • Bellman Equation Derivation
  • Optimal Policies
  • Optimal Value Functions
  • Using Optimal Value Functions to get Optimal Policies

Dynamic Programming

  • Iterative Policy Evaluation
  • Policy Iteration
  • Efficiency of Dynamic Programming

Hands-on Lab: Implement the Bellman equations and Dynamic Programming for a grid world game

Monte Carlo for Prediction and Control

  • What is Monte Carlo?
  • Prediction
  • Action Values
  • Blackjack example
  • Epsilon-soft policies
  • Off-policy learning

Hands-on Lab:

  • Implement the off-policy learning methods and compare them with the single policy ones for a grid world game
  • Understand Markov Decision Processes by creating a classifier for thrash random writing

On-policy Prediction with Approximation

  • Parameterized Functions
  • Generalization and Discrimination
  • Value Error Objective
  • Gradient Descent

Hands-on Lab: Implement your own Flappy Bird AI that learn to play only from the environment

Workshop Reinforcement Learning

Área

Dados

Como chegou até nós

Os seus dados pessoais são recolhidos em conformidade com o Regulamento Geral de Proteção de Dados (RGPD).

Consente que os seus dados sejam utilizados, nos termos da nossa Politica de Privacidade, para o contacto/envio de:

Ações de informação, de marketing de produtos e serviços, como campanhas e eventos?

Para mais informações, consulte a Política de Privacidade do Grupo Rumos.
pode retirar o seu consentimento a qualquer momento através do botão Cancelar subscrição ou Unsubscribe que estão presentes em cada comunicação enviada, bem como exercer os direitos descritos na politica de privacidade