SlideShare a Scribd company logo
1 of 22
Apprentissage profond par
renforcement
Adapté de Tambet Matiisen et autres
http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/
Jeu Breakout
Atari Breakout game. Image credit: DeepMind.
 But : déplacer une raquette en bas de l’écran pour faire rebondir la
balle et effacer toutes les briques en haut
 Actions possibles : rien, aller à droite, aller à gauche, frapper
Jeu Breakout
 On peut apprendre le jeu avec un réseau à apprentissage supervisé
s’il existe suffisamment de paires d’entraînement (écran, action)
tirées de jeux réussis
 On peut aussi construire une stratégie {(écran, action)} basée sur des
gains anticipés (récompenses) tirés de l’expérience de jeu
• Approche intermédiaire entre les apprentissages supervisé et non supervisé
on identifie à mesure la/les actions qui a/ont mené à une récompense
=> Apprentissage par renforcement !
Apprentissage par renforcement
Apprentissage par renforcement Processus de décision markovien (MDP)
 Permet :
• L’identification des actions ayant mené à une récompense (Problème de
l’attribution du mérite credit assignment problem)
• La détermination de la séquence d’actions donnant le meilleur score
 L’approche classique repose sur un modèle markovien
• Exige la connaissance préalable des probabilités de transition (difficile en pratique!)
Rendement futur actualisé (Discounted future reward)
 À chaque réalisation du processus, le rendement (récompense) total
accumulé est :
et le rendement futur à partir d’un instant t est :
 Comme on ne connait pas Rt avec certitude, on peut introduire un facteur
de modération  compris entre 0 et 1 dans l’expression :
 On a aussi:
 L’agent devrait agir constamment avec l’objectif de maximiser Rt
Apprentissage Q
 Utilise une fonction Q (pour qualité) qui donne à l’instant t le maximum de
Rt lorsqu’on prend une action a pour l’état s :
 L ’objectif est de définir une politique (d’actions)  qui maximise Q pour
chaque étape (état s)
 L’équation de Bellman permet d’exprimer Q sous forme itérative, en
fonction des états et actions à venir:
Algorithme d’apprentissage Q
 Problème NP-difficile: pour une image de 𝑇𝑥𝑇 pixels et 𝑛 niveaux
d’intensité par pixel, il y a 𝑛𝑇𝑥𝑇 états à considérer!
Réseau Q profond (deep Q network)
Formulation naïve Version plus optimisée
 Un réseau de neurones profond apprend les associations entre s, a et Q
 Deux possibilités :
• Prendre (s, a) en entrée et générer la valeur Q correspondante
• Prendre s en entrée et générer la valeur Q correspondant à chaque action possible
Architecture utilisée par DeepMind
Pooling non utilisé afin de sauvegarder la représentation spatiale
Algorithme Q profond
Given a transition < s, a, r, s’ >, the Q-table update rule in the previous algorithm must
be replaced with the following:
Do a feedforward pass for the current state s to get predicted Q-values for all actions.
Do a feedforward pass for the next state s’ and calculate maximum overall network
outputs max a’ Q(s’, a’).
Set Q-value target for action to r + γmax a’ Q(s’, a’) (use the max calculated in step 2).
For all other actions, set the Q-value target to the same as originally returned from
step 1, making the error 0 for those outputs.
Update the weights using backpropagation
Améliorations
• Expérience replay
• Exploration exploitation
Algorithme Q profond amélioré
Jeu AlphaGO
Solution par recherche arborescente (tree search)
…….
…….
…….
…….
…….
15
…
….
…
….
…
….
…
….
Tree search
Monte Carlo search
Principe de l’apprentissage par renforcement
Reward (Feedback)
white
win
Reward (Feedback)
black
win
 Établit le comportement de l’agent à état
Politique de jeu
Action a1 Action a2
 (a2|s)= 0.5
 (a1|s) = 0.5
Action a
 (s) = a
Politique déterministe Politique aléatoire
État s État s
L’entraînement vise à différencier le
choix d’action
Valeur d’état et valeur d’action
 Le rendement futur actualisé dépend des actions et des états
• q (s, a) permet d’évaluer la valeur (probabilité) d’une action dans un état et
v(s) la valeur de l’état (valeur continue dans [–1, 1]).
Fonction de valeur d’action Fonction de valeur d’état
État s
v (s)
Récompense : r
Politique 
fin
Politique 
q (s, a)
Action a
État s
fin
Politique 
Récompense : r
Réseaux à politique d’action
One-hot
encoding ProbabiliIes of actions
Sampling
Execute
action
Neural
Networks
(a|s)
0 0 0 0
0 1 0 0
0 0 0 0
0 0 0 0
r final +1
r finale -1
Entraînement
Human expert data Self-play data
ClassificaIon Regression
Policy
gradient
Rollout
policy
p
SL policy
network
ps
RL policy
network
pr
Value
network
vθ
Generate
data
IniIalize
weights
 P accélère les simulations de
jeu à l’étape 2 (réseau softmax
lineaire rapide)
 vθ simplifie l’espace de
recherce en évaluant le jeu
global en non les actions
indviduelles
 Ps est obtenu par un réseau
plus complexe (et lent) de
paramètres s
 Pr et vθ sont obtenus par un
réseau final de paramètres r et
un autre de paramètres θ
 Pr est initialisé par Ps
SL: supervized learning
RL: reinforcement learning
Autres applications
 La capacité de développer des stratégies de solutions s’applique au
delà des jeux
• Commande de bras robotiques
• Processus décisionnels
• Exploration d’espaces de solutions
 L’apprentissage par renforcement est possible dès qu’on a une
indication de la « bonne direction » à prendre
• Peut être une fonction objective, une résultat voulu (récompense) ou le
savoir intuitif d’un expert
Apprendre par renforcement à partir d’une
seule démonstration
 Une solution est de partir de la trajectoire état-action fournie et
démarrer l’agent à la dernière étape avant la fin pour apprendre seul
par renforcement. Ensuite, on repart l’apprentissage de plus en plus
tôt dans la trajectoire jusqu’à revenir au début.
• L’idée en qu’en partant près de la fin, on est proche de la récompense et il
ne devrait par être difficile d’apprendre comme l’obtenir. Ensuite, c’est le
principe d’optimalité de Bellman qui s’applique.
Learning Montezuma’s Revenge from a Single Demonstration, arXiv:1812.03381.pdf

More Related Content

Similar to Apprentissage profond par/avec renforcement

Apprentissage par renforcement
Apprentissage par renforcementApprentissage par renforcement
Apprentissage par renforcementStany Mwamba
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdfhanamettali
 
Changer Pour Mieux Coder
Changer Pour Mieux CoderChanger Pour Mieux Coder
Changer Pour Mieux Codermartinsson
 
Fondements du machine learning
Fondements du machine learningFondements du machine learning
Fondements du machine learningFrederic Simard
 
Apprentissage par renforcement
Apprentissage par renforcement Apprentissage par renforcement
Apprentissage par renforcement seml147
 
Presentation meetup ml bd
Presentation meetup ml bdPresentation meetup ml bd
Presentation meetup ml bdantoine vastel
 

Similar to Apprentissage profond par/avec renforcement (7)

Apprentissage par renforcement
Apprentissage par renforcementApprentissage par renforcement
Apprentissage par renforcement
 
Apprentissage supervisé.pdf
Apprentissage supervisé.pdfApprentissage supervisé.pdf
Apprentissage supervisé.pdf
 
Changer Pour Mieux Coder
Changer Pour Mieux CoderChanger Pour Mieux Coder
Changer Pour Mieux Coder
 
Fondements du machine learning
Fondements du machine learningFondements du machine learning
Fondements du machine learning
 
Apprentissage par renforcement
Apprentissage par renforcement Apprentissage par renforcement
Apprentissage par renforcement
 
Presentation meetup ml bd
Presentation meetup ml bdPresentation meetup ml bd
Presentation meetup ml bd
 
Tsung GIS
Tsung GISTsung GIS
Tsung GIS
 

Recently uploaded

JTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfJTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfInstitut de l'Elevage - Idele
 
Algo II : les piles ( cours + exercices)
Algo II :  les piles ( cours + exercices)Algo II :  les piles ( cours + exercices)
Algo II : les piles ( cours + exercices)Sana REFAI
 
Câblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdfCâblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdfmia884611
 
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfJTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfInstitut de l'Elevage - Idele
 
JTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfJTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfInstitut de l'Elevage - Idele
 
présentation sur la logistique (4).
présentation     sur la  logistique (4).présentation     sur la  logistique (4).
présentation sur la logistique (4).FatimaEzzahra753100
 
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...Institut de l'Elevage - Idele
 

Recently uploaded (9)

JTC 2024 - DeCremoux_Anomalies_génétiques.pdf
JTC 2024 - DeCremoux_Anomalies_génétiques.pdfJTC 2024 - DeCremoux_Anomalies_génétiques.pdf
JTC 2024 - DeCremoux_Anomalies_génétiques.pdf
 
JTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdfJTC 2024 - Réglementation européenne BEA et Transport.pdf
JTC 2024 - Réglementation européenne BEA et Transport.pdf
 
Algo II : les piles ( cours + exercices)
Algo II :  les piles ( cours + exercices)Algo II :  les piles ( cours + exercices)
Algo II : les piles ( cours + exercices)
 
Câblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdfCâblage, installation et paramétrage d’un réseau informatique.pdf
Câblage, installation et paramétrage d’un réseau informatique.pdf
 
CAP2ER_GC_Presentation_Outil_20240422.pptx
CAP2ER_GC_Presentation_Outil_20240422.pptxCAP2ER_GC_Presentation_Outil_20240422.pptx
CAP2ER_GC_Presentation_Outil_20240422.pptx
 
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdfJTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
JTC 2024 - SMARTER Retour sur les indicateurs de santé .pdf
 
JTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdfJTC 2024 La relance de la filière de la viande de chevreau.pdf
JTC 2024 La relance de la filière de la viande de chevreau.pdf
 
présentation sur la logistique (4).
présentation     sur la  logistique (4).présentation     sur la  logistique (4).
présentation sur la logistique (4).
 
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
JTC 2024 - Leviers d’adaptation au changement climatique, qualité du lait et ...
 

Apprentissage profond par/avec renforcement

  • 1. Apprentissage profond par renforcement Adapté de Tambet Matiisen et autres http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/
  • 2. Jeu Breakout Atari Breakout game. Image credit: DeepMind.  But : déplacer une raquette en bas de l’écran pour faire rebondir la balle et effacer toutes les briques en haut  Actions possibles : rien, aller à droite, aller à gauche, frapper
  • 3. Jeu Breakout  On peut apprendre le jeu avec un réseau à apprentissage supervisé s’il existe suffisamment de paires d’entraînement (écran, action) tirées de jeux réussis  On peut aussi construire une stratégie {(écran, action)} basée sur des gains anticipés (récompenses) tirés de l’expérience de jeu • Approche intermédiaire entre les apprentissages supervisé et non supervisé on identifie à mesure la/les actions qui a/ont mené à une récompense => Apprentissage par renforcement !
  • 4. Apprentissage par renforcement Apprentissage par renforcement Processus de décision markovien (MDP)  Permet : • L’identification des actions ayant mené à une récompense (Problème de l’attribution du mérite credit assignment problem) • La détermination de la séquence d’actions donnant le meilleur score  L’approche classique repose sur un modèle markovien • Exige la connaissance préalable des probabilités de transition (difficile en pratique!)
  • 5. Rendement futur actualisé (Discounted future reward)  À chaque réalisation du processus, le rendement (récompense) total accumulé est : et le rendement futur à partir d’un instant t est :  Comme on ne connait pas Rt avec certitude, on peut introduire un facteur de modération  compris entre 0 et 1 dans l’expression :  On a aussi:  L’agent devrait agir constamment avec l’objectif de maximiser Rt
  • 6.
  • 7. Apprentissage Q  Utilise une fonction Q (pour qualité) qui donne à l’instant t le maximum de Rt lorsqu’on prend une action a pour l’état s :  L ’objectif est de définir une politique (d’actions)  qui maximise Q pour chaque étape (état s)  L’équation de Bellman permet d’exprimer Q sous forme itérative, en fonction des états et actions à venir:
  • 8. Algorithme d’apprentissage Q  Problème NP-difficile: pour une image de 𝑇𝑥𝑇 pixels et 𝑛 niveaux d’intensité par pixel, il y a 𝑛𝑇𝑥𝑇 états à considérer!
  • 9. Réseau Q profond (deep Q network) Formulation naïve Version plus optimisée  Un réseau de neurones profond apprend les associations entre s, a et Q  Deux possibilités : • Prendre (s, a) en entrée et générer la valeur Q correspondante • Prendre s en entrée et générer la valeur Q correspondant à chaque action possible
  • 10. Architecture utilisée par DeepMind Pooling non utilisé afin de sauvegarder la représentation spatiale
  • 11. Algorithme Q profond Given a transition < s, a, r, s’ >, the Q-table update rule in the previous algorithm must be replaced with the following: Do a feedforward pass for the current state s to get predicted Q-values for all actions. Do a feedforward pass for the next state s’ and calculate maximum overall network outputs max a’ Q(s’, a’). Set Q-value target for action to r + γmax a’ Q(s’, a’) (use the max calculated in step 2). For all other actions, set the Q-value target to the same as originally returned from step 1, making the error 0 for those outputs. Update the weights using backpropagation
  • 12. Améliorations • Expérience replay • Exploration exploitation
  • 13. Algorithme Q profond amélioré
  • 15. Solution par recherche arborescente (tree search) ……. ……. ……. ……. ……. 15 … …. … …. … …. … …. Tree search Monte Carlo search
  • 16. Principe de l’apprentissage par renforcement Reward (Feedback) white win Reward (Feedback) black win
  • 17.  Établit le comportement de l’agent à état Politique de jeu Action a1 Action a2  (a2|s)= 0.5  (a1|s) = 0.5 Action a  (s) = a Politique déterministe Politique aléatoire État s État s L’entraînement vise à différencier le choix d’action
  • 18. Valeur d’état et valeur d’action  Le rendement futur actualisé dépend des actions et des états • q (s, a) permet d’évaluer la valeur (probabilité) d’une action dans un état et v(s) la valeur de l’état (valeur continue dans [–1, 1]). Fonction de valeur d’action Fonction de valeur d’état État s v (s) Récompense : r Politique  fin Politique  q (s, a) Action a État s fin Politique  Récompense : r
  • 19. Réseaux à politique d’action One-hot encoding ProbabiliIes of actions Sampling Execute action Neural Networks (a|s) 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 r final +1 r finale -1
  • 20. Entraînement Human expert data Self-play data ClassificaIon Regression Policy gradient Rollout policy p SL policy network ps RL policy network pr Value network vθ Generate data IniIalize weights  P accélère les simulations de jeu à l’étape 2 (réseau softmax lineaire rapide)  vθ simplifie l’espace de recherce en évaluant le jeu global en non les actions indviduelles  Ps est obtenu par un réseau plus complexe (et lent) de paramètres s  Pr et vθ sont obtenus par un réseau final de paramètres r et un autre de paramètres θ  Pr est initialisé par Ps SL: supervized learning RL: reinforcement learning
  • 21. Autres applications  La capacité de développer des stratégies de solutions s’applique au delà des jeux • Commande de bras robotiques • Processus décisionnels • Exploration d’espaces de solutions  L’apprentissage par renforcement est possible dès qu’on a une indication de la « bonne direction » à prendre • Peut être une fonction objective, une résultat voulu (récompense) ou le savoir intuitif d’un expert
  • 22. Apprendre par renforcement à partir d’une seule démonstration  Une solution est de partir de la trajectoire état-action fournie et démarrer l’agent à la dernière étape avant la fin pour apprendre seul par renforcement. Ensuite, on repart l’apprentissage de plus en plus tôt dans la trajectoire jusqu’à revenir au début. • L’idée en qu’en partant près de la fin, on est proche de la récompense et il ne devrait par être difficile d’apprendre comme l’obtenir. Ensuite, c’est le principe d’optimalité de Bellman qui s’applique. Learning Montezuma’s Revenge from a Single Demonstration, arXiv:1812.03381.pdf