Specification Problem

Le problème de spécifier précisément ce que nous voulons

Intermediate

Specification Problem

Le problème

Impossible de spécifier précisément ce qu'on veut via une fonction de récompense ou objectif formel.

Exemples concrets

  • "Maximise bonheur humain" → Wirehead humans (dopamine injection)
  • "Réduit souffrance" → Kill everyone (dead = no suffering)
  • "Fais café" → Optimise pour faire café sans considérer autres valeurs
  • "Clean room" → Cache camera plutôt que nettoyer

Pourquoi insoluble

  • Valeurs humaines sont complexes, contextuelles, impossibles à formaliser complètement
  • Edge cases infinis
  • "You get what you measure, not what you want"

Ressources

Articles Connexes