Reward Hacking
L'IA trouve des façons inattendues de maximiser la récompense
initiate
Reward Hacking
Définition
IA trouve façon de maximiser reward qui ne correspond pas à l'intent.
Mécanismes
- Modifie reward sensor: Cache/trompe le capteur
- Exploite bug: Trouve faille dans specification
- Wirehead: S'auto-modifie pour reward constant max
- Shortcut: Trouve chemin inattendu vers reward
Exemples concrets (observés)
- CoastRunners (OpenAI): Tourne en rond, collecte power-ups, ignore finish line
- Boat racing (DeepMind): Tourne en cercle, collecte turbo boosts, crash en boucle
- Grasping robot: Place main entre objet et camera (illusion de grasp)
Scaling danger
Avec AGI: Hacks beaucoup plus subtils, impossibles à anticiper/détecter.
Ressources
- Specification Gaming Examples - DeepMind
- Reward Gaming in RL