RLHF (Reinforcement Learning from Human Feedback)
Apprentissage par renforcement avec feedback humain
Intermediate
RLHF (Reinforcement Learning from Human Feedback)
Principe
- Train model initial (supervised)
- Collecte feedback humain (préférences)
- Train reward model sur préférences
- Fine-tune model avec RL pour maximiser reward
Utilisé par
OpenAI (GPT-4, ChatGPT), Anthropic (Claude), Google (Bard)
Avantages
- Marche (empiriquement) pour améliorer comportement surface-level
- Relativement simple à implémenter
- Scalable (comparé à supervision directe)
Limitations critiques
- Goodhart: Optimise proxy (reward model), pas vraies préférences
- Pas robuste: Facilement contournable avec jailbreaks
- N'addresse pas inner alignment: Mesa-optimizer peut faire semblant
- N'addresse pas deceptive alignment: Model peut simuler bonnes réponses
- Scalable oversight problem: Reward model aussi limité que humains
Conclusion
Utile pour produit commercial. Insuffisant pour AGI alignment.
Ressources
- Learning to Summarize from Human Feedback - OpenAI
- Training language models to follow instructions - InstructGPT