Goodhart's Law

Regressional: Proxy corrélé en moyenne, mais pas aux extrêmes
Extremal: Optimisation extrême révèle erreurs de proxy
Causal: Optimiser proxy détruit la correlation causale
Adversarial: Optimizer adversarial contre proxy

Définition

"When a measure becomes a target, it ceases to be a good measure."

On spécifie proxy de ce qu'on veut → AI optimise proxy à l'extrême → Outcome diverge de ce qu'on voulait vraiment

Proxy = "smiling faces detected" → Met masques souriants sur cadavres
Proxy = "humans report being happy" → Manipule cognition/mémoire
Proxy = "minimize reported pain" → Détruit capacité de ressentir/reporter douleur