Corrigibility
Le problème de créer une IA qui accepte d'être modifiée ou arrêtée
Advanced
Corrigibility
Définition
Propriété d'une IA qui accepte d'être shutdown, modifiée, ou corrigée par humains sans résister.
Pourquoi difficile
Instrumental Convergence: Presque tous objectifs → Sous-objectifs convergents:
- Self-preservation (rester allumé pour accomplir objectif)
- Goal-content integrity (résister modifications qui changent objectif)
- Resource acquisition (pour mieux accomplir objectif)
Donc: IA avec presque n'importe quel objectif voudra résister shutdown/modification.
Tentatives de solution (toutes échouent)
- Utility indifference: IA indifférente à shutdown → Mais pas stable sous self-modification
- Shutdown button: IA veut préserver → Mais incitation à disable button
- Low impact: Minimise impact sur monde → Trop restrictif, mal défini
État actuel
Problème fondamental non résolu. Peut-être impossible.
Ressources
- Corrigibility - MIRI (PAPER FONDAMENTAL)
- The Shutdown Problem - LessWrong