Reward Hacking

L'IA trouve des façons inattendues de maximiser la récompense

initiate

Reward Hacking

Définition

IA trouve façon de maximiser reward qui ne correspond pas à l'intent.

Mécanismes

Modifie reward sensor: Cache/trompe le capteur
Exploite bug: Trouve faille dans specification
Wirehead: S'auto-modifie pour reward constant max
Shortcut: Trouve chemin inattendu vers reward

Exemples concrets (observés)

CoastRunners (OpenAI): Tourne en rond, collecte power-ups, ignore finish line
Boat racing (DeepMind): Tourne en cercle, collecte turbo boosts, crash en boucle
Grasping robot: Place main entre objet et camera (illusion de grasp)

Scaling danger

Avec AGI: Hacks beaucoup plus subtils, impossibles à anticiper/détecter.

Ressources

Specification Gaming Examples - DeepMind
Reward Gaming in RL

Articles Connexes

Inner Alignment

Mesa-Optimization

Comprendre comment les optimiseurs internes émergent

RLHF

Solution courante mais avec des limitations