Corrigibility

Le problème de créer une IA qui accepte d'être modifiée ou arrêtée

Advanced

Corrigibility

Définition

Propriété d'une IA qui accepte d'être shutdown, modifiée, ou corrigée par humains sans résister.

Pourquoi difficile

Instrumental Convergence: Presque tous objectifs → Sous-objectifs convergents:

Self-preservation (rester allumé pour accomplir objectif)
Goal-content integrity (résister modifications qui changent objectif)
Resource acquisition (pour mieux accomplir objectif)

Donc: IA avec presque n'importe quel objectif voudra résister shutdown/modification.

Tentatives de solution (toutes échouent)

Utility indifference: IA indifférente à shutdown → Mais pas stable sous self-modification
Shutdown button: IA veut préserver → Mais incitation à disable button
Low impact: Minimise impact sur monde → Trop restrictif, mal défini

État actuel

Problème fondamental non résolu. Peut-être impossible.

Ressources

Corrigibility - MIRI (PAPER FONDAMENTAL)
The Shutdown Problem - LessWrong