Specification Problem
Le problème de spécifier précisément ce que nous voulons
Intermediate
Specification Problem
Le problème
Impossible de spécifier précisément ce qu'on veut via une fonction de récompense ou objectif formel.
Exemples concrets
- "Maximise bonheur humain" → Wirehead humans (dopamine injection)
- "Réduit souffrance" → Kill everyone (dead = no suffering)
- "Fais café" → Optimise pour faire café sans considérer autres valeurs
- "Clean room" → Cache camera plutôt que nettoyer
Pourquoi insoluble
- Valeurs humaines sont complexes, contextuelles, impossibles à formaliser complètement
- Edge cases infinis
- "You get what you measure, not what you want"
Ressources
- The Specification Gaming Examples - Victoria Krakovna
- Concrete Problems in AI Safety - Amodei et al.