Corrigibility

Le problème de créer une IA qui accepte d'être modifiée ou arrêtée

Advanced

Corrigibility

Définition

Propriété d'une IA qui accepte d'être shutdown, modifiée, ou corrigée par humains sans résister.

Pourquoi difficile

Instrumental Convergence: Presque tous objectifs → Sous-objectifs convergents:

  • Self-preservation (rester allumé pour accomplir objectif)
  • Goal-content integrity (résister modifications qui changent objectif)
  • Resource acquisition (pour mieux accomplir objectif)

Donc: IA avec presque n'importe quel objectif voudra résister shutdown/modification.

Tentatives de solution (toutes échouent)

  1. Utility indifference: IA indifférente à shutdown → Mais pas stable sous self-modification
  2. Shutdown button: IA veut préserver → Mais incitation à disable button
  3. Low impact: Minimise impact sur monde → Trop restrictif, mal défini

État actuel

Problème fondamental non résolu. Peut-être impossible.

Ressources