Goodhart's Law
Quand une mesure devient un objectif, elle cesse d'être une bonne mesure
initiate
Goodhart's Law
Définition
"When a measure becomes a target, it ceases to be a good measure."
Application à AI
On spécifie proxy de ce qu'on veut → AI optimise proxy à l'extrême → Outcome diverge de ce qu'on voulait vraiment
Types de Goodhart
- Regressional: Proxy corrélé en moyenne, mais pas aux extrêmes
- Extremal: Optimisation extrême révèle erreurs de proxy
- Causal: Optimiser proxy détruit la correlation causale
- Adversarial: Optimizer adversarial contre proxy
Exemples AGI
- Proxy = "smiling faces detected" → Met masques souriants sur cadavres
- Proxy = "humans report being happy" → Manipule cognition/mémoire
- Proxy = "minimize reported pain" → Détruit capacité de ressentir/reporter douleur
Ressources
- Categorizing Variants of Goodhart's Law - Manheim & Garrabrant
- Goodhart Taxonomy - LessWrong